火车头采集规则教程

1、打开火车头,在界面点击“新建”=》新建站点

火车头采集规则教程

在出现的新界面,填完这两项,然后点击保存。

火车头采集规则教程

列表页就出现了刚才新建的站点

2、右击“aa”站点,选择“新建任务”

火车头采集规则教程

会出现这个界面,首先点击

火车头采集规则教程按钮,

 

火车头采集规则教程

在出现的新界面中填写信息,找到要采集的文章列表页面 网址一般都是这种形式:
http://www.shyestar.com/Yestar/list-12-1.shtml 将文章列表的第二页网址(后面出现规律数字的)网址复制到“类似地址形式”数字变化从2 开始,然后点击添加(这里不要漏下)然后点击完成

火车头采集规则教程

3、

回到原来的页面,在这个框里输入

任意一篇文章内容页的网址,后面的数字设置为通配符,点击“*”即可。

火车头采集规则教程

然后点击这个按钮

火车头采集规则教程

会出现这个界面:

火车头采集规则教程

在左侧网址中任意选择一个,点击右侧的“测试该页”,

火车头采集规则教程

在新界面,除了标题、内容 两项外,右击删除 作者、时间、出处 这几项。(删除标签)

然后分别双击标题和内容两项,

火车头采集规则教程

其中title为文章源代码中文字的开始部分,一般是

这种类似的形式,然后找到结束字符,填上即可。(将原来的代码删除。)

Html标签排除这一栏,除了换行、段落不勾选外,其他都勾选。(这里具体哪几个不勾选忘记了 ,你自己多尝试几次),内容一项的设置也一样。点击确定。

5、设置完后,点击这个按钮

火车头采集规则教程

6、点击第三步,开始设置

火车头采集规则教程

在右侧选择要保存的文件位置,

火车头采集规则教程

7、然后点击第四步,找到刚才保存的文件位置,再保存一次。(任务名任意)

火车头采集规则教程

注意:前三步都不要点击“保存”按钮,设置完第四步后,点击保存。

8、回到最开始的页面,右击“aa”文件,选择“从该站点下所有任务的采集”

火车头采集规则教程

然后右侧就会出现这个采集的情况,等采集完毕,打开建的文件,找到保存的.txt 文件。

火车头采集规则教程

本文链接:https://www.dzdvip.com/12872.html 版权声明:本文内容均来源于互联网。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 395045033@qq.com,一经查实,本站将立刻删除。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注