文章列表采集,第一页的内容都采集两遍
来源:本站原创
点击数: 次
发布时间:2015年01月29日
问题描述:文章列表采集,第一页的内容都采集两遍
问题分析:由于旧站有好多标题相同但内容并不相同的文章,所以采集的时候没有屏蔽重复标题,再来看下分页地址

ID范围设置的为1到20,实际上page=1的分页地址,和采集URL是同一个地址,当不过滤重复标题的时候,第一页的列表等于是采集了两次,所以就造成第一页采集重复
问题解决:分页设置里,ID范围从2开始即可