新手必看的火车头采集器使用入门图文教程

我们打开一个网站,看到有一篇文章很不错,于是我们就将文章的标题和内容复制了一下,将这篇文章转到我们的网站上.我们的这个过程,就可以称作一个采集,将别人网站上对自己有用的信息转到自己网站上;互联网上的内容,大多数都是通过复制-修改-黏贴的过程产生的,所以信息采集很重要,也很普遍,我们平台发到网站上的文章,多数也是这样的一个过程;为什么很多人感觉新闻更新很麻烦,因为这个工作是重复的,枯燥乏味的,浪费时间的;
火车头采集器使用图文教程以及重点问题整理! 本文将以一个简单的实测案例来说明,从而对重点问题进行细致入微的由浅入深的讲解。
下面我们通过一个简单的文章规则制作,来实战说明
通过采集faq为例来说明采集器采集的原理和过程。 本例以 http://faq.locoy.com/qc-12.html 演示地址。
一.新建个采集规则
选择一个分组上右击,选择“新建任务”,如下图:
 
新手必看的火车头采集器使用入门图文教程
 
二.添加起始网址
在这里我需要采集 5页数据。分析网址变量规律:
第一页地址:http://faq.locoy.com/qc-12.html?p=1
第二页地址:http://faq.locoy.com/qc-12.html?p=2
第三页地址:http://faq.locoy.com/qc-12.html?p=3
由此我们可以推算出p=后的数字就是分页的意思,我们用[地址参数]表示:
所以设置如下:
 
新手必看的火车头采集器使用入门图文教程
 
地址格式:把变化的分页数字用[地址参数]表示。
数字变化:从1开始,即第一页;每次递增1,即每次分页的变化规律数字; 共5项,即一共采集5页。
预览:采集器会按照上面设置的生成一部分网址,让你来判读添加的是否正确。
然后确定即可
【明月SEO总结】
设置网址规则的第一步是分析确认采集目标网站栏目列表页的页面URL规律(是纯列表页)
三.[常规模式]获取内容网址
常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。
在这里给大家演示用 自动获取地址链接 +设置区域 的 方式来获取。
查看页面源代码找到文章地址所在的区域:
设置如下:
 
新手必看的火车头采集器使用入门图文教程
 
注:更详细的分析说明可以参考官网帮助手册:操作指南 > 软件操作 > 网址采集规则 > 获取内容网址
点击网址采集测试,看看测试效果
 
新手必看的火车头采集器使用入门图文教程
 
 
新手必看的火车头采集器使用入门图文教程
 
四.采集网址内容规则
http://faq.locoy.com/q-1184.html 为例讲解标签采集
注:更详细的分析说明可以参考本帮助手册:操作指南 > 软件操作 > 内容采集规则 > 标签编辑
我们首先查看它的页面源代码,找到我们“标题”所在位置的代码:
<title>导入Excle是跳出对话框~打开Excle出错 – 火车采集器帮助中心</title>
分析得出: 开头字符串为:<title> 结尾字符串为:</title> 数据处理——内容替换/排除:需要把- 火车采集器帮助中心 给替换为空
 
新手必看的火车头采集器使用入门图文教程
 
内容标签的设置原理也是类似的,找到内容所在源码中的位置
 
图片上传失败
 
分析得出: 开头字符串为:<div id=”cmsContent”> 结尾字符串为:</div> 数据处理——HTML标签排除:把不需要的A链接等 过滤
 
新手必看的火车头采集器使用入门图文教程
 
再设置个“来源”字段
 
新手必看的火车头采集器使用入门图文教程
 
【明月SEO总结】
1.第一步:分析出列表页分页的页码规律。并设置写出采集目标网站栏目列表页的页面URL规律(是纯列表页)
2.第二步:分析出列表页单页面全部链接的前后代码标签,并设置采集此列表网址链接的规则。
3.第三步:分析出文章内容的前后代码标签,并设置内容的采集规则
注意:是从文章的正文内容开始!找出正文内容前后的代码标签。
(1)不是从文章标题开始
(2)也不是从文章的标示属性开始
好了,既然我们知道是从文章内容的【正文】处的前后找前后标志代码标签,那么怎么找呢?有什么要求吗?
4.前后代码标签查找的要求
并不是直接找正文的前后最近的闭合标签代码!
因为这个并不是唯一的
要求必须是离正文最近的,唯一不重复的前后代码标签。
5.点击开始采集的时候,后边的【发布】按钮哪怕你只是采集到本地没有设置发布,也要勾选上。不然火车头采集器就采集不上。
6.从新采集的话需要右键选择清空采集记录,或者从新新建存储文件夹。不然也采集不上。
本文链接:https://www.dzdvip.com/21517.html 版权声明:本文内容均来源于互联网。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 395045033@qq.com,一经查实,本站将立刻删除。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注