乙王垂直搜索引擎系统开源版能够自动提取目标网页分类栏目信息字段并自动归类,带服务端爬虫,无须自定义采集规则也能归类影片集数信息,如用于电影垂直搜索引擎等。
本垂直搜索引擎系统需要独立服务器支持,也可以用你本地电脑做服务器来调试,基于lucence+mysql+asp.net,支持数据索引,中文分词,模糊查询,爬虫采集,精确采集规则模式和模糊采集规则模式相混合(模糊采集不用为每个站定义采集规则,只定义一个总的)
目录结构:
网站文件--上传这个到服务器
|
|----spider_bin 这里为爬虫系统目录
|----ShangPu_zhida_data商家直达栏目数据
|----Main_set_dats 精确采集规则和模糊采集规则的采集规则文件,每个栏目建立一个目录
|----Lanmu_Index_templete 栏目首页模板文件目录