火车头采集列表地址过滤掉PHPSESSID的方法

2019-11-8

最近发现网站用火车头采集的内容里有很多重复的内容。如下图，标题、内容都一样。但发布日期不一样。

采集器里面我明明设置检测重复网址了，如下图

最后检查本地采集任务数据发现，采集页网址前面自动添加了?PHPSESSID=u3i1b955mq9864i3qa4j47h184这段字符。

如果直接通过浏览器访问的话，发现列表页的文章的地址是都是正常html地址，但通过采集器的话，获取的地址都会在.htm后面添加上?PHPSESSID=u3i1b955mq9864i3qa4j47h184这种字符。

并且这个字符是随机自动变。这样的话，就会出重复了。因为地址后面的PHPSESSID不一样，所以采集器就判断不出这篇文章是不是重复的。咨询官方，技术支持说用网址拼接，并给出规则，用她给的规则

脚本规则：<a href="/[参数]"
实际连接：http://www.abccom/[参数1]

结果测试不行。

经研究发现，地址是随机变的，这个可以当一个参数，但?PHPSESSID=这个是固定不变的，后面的数值又是随机的，可用（*）替换。一点测试，可以了。

文章的地址是：/article-900825.html?PHPSESSID=u3i1b955mq9864i3qa4j47h184

拼接地址如下：

然后测试网址。正常了。这样就不会出现重复的内容了。

声明：
1.本站主要是为了记录工作、学习中遇到的问题，可能由于本人技术有限，内容难免有纰漏，一切内容仅供参考。
2.本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除！
3.本站所有原创作品，包括文字、资料、图片、网页格式，转载时请标注作者与来源。

THE END