火车头采集列表地址过滤掉PHPSESSID的方法

最近发现网站用火车头采集的内容里有很多重复的内容。如下图,标题、内容都一样。但发布日期不一样。

采集器里面我明明设置检测重复网址了,如下图

最后检查本地采集任务数据发现,采集页网址前面自动添加了?PHPSESSID=u3i1b955mq9864i3qa4j47h184这段字符。

如果直接通过浏览器访问的话,发现列表页的文章的地址是都是正常html地址,但通过采集器的话,获取的地址都会在.htm后面添加上?PHPSESSID=u3i1b955mq9864i3qa4j47h184这种字符。

并且这个字符是随机自动变。这样的话,就会出重复了。因为地址后面的PHPSESSID不一样,所以采集器就判断不出这篇文章是不是重复的。咨询官方,技术支持说用网址拼接,并给出规则 ,用她给的规则

脚本规则:<a href="/[参数]"
实际连接:http://www.abccom/[参数1]

结果测试不行。

经研究发现,地址是随机变的,这个可以当一个参数,但?PHPSESSID=这个是固定不变的,后面的数值又是随机的,可用(*)替换。一点测试,可以了。

文章的地址是:/article-900825.html?PHPSESSID=u3i1b955mq9864i3qa4j47h184

拼接地址如下:

然后测试网址。正常了。这样就不会出现重复的内容了。

THE END