今天在测试采集一个地址时,发现采集的列表地址多了一层地址,如下图
查看源码发现,它的列表地址前面不带协议头https: 这样,它获取的地址就会多一层。
这样我们只能用规则手动填写列表地址,添加上协议头就行了,设置如下:
再测试列表地址,正常了。
 ...
baishitou
1年前 (2021-12-25) 771℃
7喜欢
织梦用火车头采集内容发布后自动更新主页的方法:打开/dede/inc/inc_archives_functions.php 在最底部添加下面代码即可。这样,文章采集发布后,它会自动生成html静态首页!
/*火车头采集自动更新主页*/
function MakeIndex(...
baishitou
2年前 (2021-09-13) 1470℃
15喜欢
我遇到过这种情况,整个网站是伪静态,用火车头采集更新,但经常发现用火车头采集的文章只要一编辑,它就会自动生成html静态文件,删除后,只要一编辑文章,就又会生成。这个问题困扰了我好久,经过多方查找,终于发现了问题所在。就是编辑采集的文章时,发布选项里面生成html是选中状态。如下...
baishitou
3年前 (2020-10-13) 2077℃
0喜欢
在用火车头采集文章时发现,文章标题带有引号或者是圆点、双引号被转义了。如下图
正常标题是:十一月,It’s a good beginning。
解决方法:采集规则-数据处理-添加-高级功能 -字符编码转换,选择“HTML Decode”。就可以了
这个只是标题的...
baishitou
4年前 (2019-11-16) 2928℃
0喜欢
最近发现网站用火车头采集的内容里有很多重复的内容。如下图,标题、内容都一样。但发布日期不一样。
采集器里面我明明设置检测重复网址了,如下图
最后检查本地采集任务数据发现,采集页网址前面自动添加了?PHPSESSID=u3i1b955mq9864i3qa4j47h184这段字符...
baishitou
4年前 (2019-11-08) 2392℃
0喜欢