SSR服务器搭建,VPS搭建SSR,SSR客户端配置,vultr搭建SSR,dedecms,织梦,科学上网,织梦伪静态规则,织梦全站伪静态,织梦手机版伪静态

火车头采集列表地址过滤掉PHPSESSID的方法

工作手记 baishitou 42℃

最近发现网站用火车头采集的内容里有很多重复的内容。如下图,标题、内容都一样。但发布日期不一样。

采集器里面我明明设置检测重复网址了,如下图

最后检查本地采集任务数据发现,采集页网址前面自动添加了?PHPSESSID=u3i1b955mq9864i3qa4j47h184这段字符。

如果直接通过浏览器访问的话,发现列表页的文章的地址是都是正常html地址,但通过采集器的话,获取的地址都会在.htm后面添加上?PHPSESSID=u3i1b955mq9864i3qa4j47h184这种字符。

并且这个字符是随机自动变。这样的话,就会出重复了。因为地址后面的PHPSESSID不一样,所以采集器就判断不出这篇文章是不是重复的。咨询官方,技术支持说用网址拼接,并给出规则 ,用她给的规则

脚本规则:<a href="/[参数]"
实际连接:http://www.abccom/[参数1]

结果测试不行。

经研究发现,地址是随机变的,这个可以当一个参数,但?PHPSESSID=这个是固定不变的,后面的数值又是随机的,可用(*)替换。一点测试,可以了。

文章的地址是:/article-900825.html?PHPSESSID=u3i1b955mq9864i3qa4j47h184

拼接地址如下:

然后测试网址。正常了。这样就不会出现重复的内容了。

转载请注明:白石头博客 » 火车头采集列表地址过滤掉PHPSESSID的方法

喜欢 (0)or分享 (0)