火车头采集器使用手册

更新时间：2023-09-05 11:43:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

火车头采集器|使用手册,采集器使用教程

火车头采集教程火车头采集器使用说明

下载地址：http://www.77cn.com.cn/Down/ 我们下载免费版。。。。注意：想用火车，就必须得安装.NET FrameWork 2.0框架或更高版本 .net framework 2.0下载地址:

那么，火车我们也下载到本地了，。net框架，我们也安装了。。。那么，我们把新下载的火车采集软件，解压下。。。看到一些密密麻麻乱七八糟的东西及文件。。。那么。。。

上图中，用红线圈住的LocoySpider.exe 是主程序，我们双击打开。。。

火车头采集器|使用手册,采集器使用教程

ps：这里说下，上图中，有好多任务是我自己用的。。。新程序，并没有那么多。。。我们会看到火车的界面，看起来非常复杂，是吧？呵呵，其实并没有那么复杂，对于新手，有好多东西是用不到的。。。下边会一一的讲解。。。我们先补习一下，火车头采集软件的工作原理。。。

因为我们浏览到的网页，最后都是通过html输出的，那么意味着，我们可以查看到html的源码，那么火车头为什么会采集到内容呢？我们看下网站的基本结构。。。

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.77cn.com.cn/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.77cn.com.cn/1999/xhtml">

<head>

<title>网页的标题</title> ----红色的是网页的标题。。。如下图（1） </head>

<body>

内容在这个<body>和</body>之间的，是网站的内容部分。。如下图（2） </body>

</html> ----------这里是网站的结尾。。。。

火车头采集器|使用手册,采集器使用教程

如果想查看一个网页的html源文件，之需要点击浏览器上的查看，源文件即可。。。。

（1）

（2）

那么，我们知道了一个网页最基本的架构，那么就好理解火车采集的基本原理了火车采集软件是怎么采集的呢？

我们配置好火车头采集规则，什么叫采集规则？就是我们查看网页的源文件，看看整个网页的源码，内容部分的开始标签，和结束标签，这样火车才能知道，我们要采集这个页面的哪个部分，比如下边我们演示的。。。

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.77cn.com.cn/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.77cn.com.cn/1999/xhtml"> <head>

</body>

我们想要采集“内容”那么就要告诉火车采集器，内容开始标签是<body>，结束标签就是</body>

明白了么？呃。。。估计是我的表达能力不够好。。。so。。。我们看下边的实例，在好好巩固下就OK。。。

火车头采集器|使用手册,采集器使用教程

OK。。那么我们开始一步一步教大家设置采集规则。。。

首先第一个。。我们的目标站。。discuz！x1.5架构的网站。。。http://www.77cn.com.cn/forum-60-1.html

我们要把这个版块的内容以及回复都采集到我们的网站上去。。。

首先我们打开火车，新建一个站点。。。点击火车左上角上的新建按钮，选择新建站点。。。如下图

我们只需要填写站点名就可以，其余的保持默认，然后点击保存按钮！

然后。。。在这个站点下，新建一个任务。。。选中我们新建的站点，点击鼠标右键，选择第一个，从该站点新建任务。。。如下图

火车头采集器|使用手册,采集器使用教程

其中1，是任务的名字，必须填写。。。2，是整个采集任务的步骤向导，3，是文章列表的设置区域（下边讲解），4，和3差不多。。。5，是登录的地方，有些网址必须登录，我们才可以看到内容，就是这个东西！ OK。就这些，那么，我们一步一步的来！

首先我们给我们的任务加一个标题。。。

下一步，我们就开始设置列表的采集规则

（因为现在火车不知道 http://www.77cn.com.cn/forum-60-1.html 这个页面的文章列表是那些，所以我们要告诉火车！）

火车头采集器|使用手册,采集器使用教程

这里有两种方式，新手嘛，我也不知道适合哪种。。。我们就用默认的吧，

第一种

我们点击向导添加

然后出现下图。。

火车头采集器|使用手册,采集器使用教程

其中有4个选项卡，

如果我们只采集目标站点的一个文章列表http://www.77cn.com.cn/forum-60-1.html，那么我们选中单条网址，直接写上目标的列表网站，如下图！

火车头采集器|使用手册,采集器使用教程

然后点击添加，点击完成就OK。。

那么，如果我们要采集多个列表。那么我们回到

看下边的图

火车头采集器|使用手册,采集器使用教程

其中1，是目标网站的地址

其中2，是火车的通配符（就是某个东西识别的东西）其中3，是间隔数已经补零（下边一一讲解）其中4，数字变化。。。下边讲解其中5，字母变化。。。那么。。。看下图

火车头采集器|使用手册,采集器使用教程

图中在地址栏填写的是 http://www.77cn.com.cn/forum-60-(*).html 这个。

那么，这是什么意思呢？我们打开 http://www.77cn.com.cn/forum-60-1.html 这个地址，然后点击下一页

发现地址变成了 http://www.77cn.com.cn/forum-60-2.html

那么我们在点击下一页，就是第三页，发现地址变成了 http://www.77cn.com.cn/forum-60-3.html

那么在点击第四页。。想必大家也知道变成什么了吧？那么第一页：http://www.77cn.com.cn/forum-60-1.html 第二页：http://www.77cn.com.cn/forum-60-2.html 第三页：http://www.77cn.com.cn/forum-60-3.html 翻页中，我们发现，只有么我们在火车那里就填写

http://www.77cn.com.cn/forum-60-(*).html 这个，其中1用火车的通配符(*)替换掉。。。意思就是，只有1在变化。。。在看下边

1在变化。。。那

其中数字变化，从1到5.意思就是

从地址栏 http://www.77cn.com.cn/forum-60-(*).htm获取地址 1到5，就是下边这样的。。。 http://www.77cn.com.cn/forum-60-1.html http://www.77cn.com.cn/forum-60-2.html 。。。

http://www.77cn.com.cn/forum-60-5.html 明白了么？其实很简单。。。那么字母变化，就是

http://www.77cn.com.cn/forum-60-a.html http://www.77cn.com.cn/forum-60-b.html

火车头采集器|使用手册,采集器使用教程

。。。

http://www.77cn.com.cn/forum-60-z.html

因为我们目标地址是数字变化。。。我们继续看下边

间隔倍数，和补零。

间隔倍数1是什么意思？40又是什么意思呢？间隔倍数1就是

http://www.77cn.com.cn/forum-60-1.html http://www.77cn.com.cn/forum-60-2.html 。。。

http://www.77cn.com.cn/forum-60-5.html 间隔倍数40就是

http://www.77cn.com.cn/forum-60-40.html http://www.77cn.com.cn/forum-60-80.html 。。。

http://www.77cn.com.cn/forum-60-200.html 明白了么？

那么我们在看补零，补零就是。。。 http://www.77cn.com.cn/forum-60-01.html http://www.77cn.com.cn/forum-60-02.html 。。。

http://www.77cn.com.cn/forum-60-05.html 就是这样。。。其实很好理解。。。 OK。。我们继续。。。

我们填写完成后，点击添加 - 完成。。如下图

火车头采集器|使用手册,采集器使用教程

到这里，我们的地址就添加完成了。。。那么下边，我们来设置区域列表。。。

我们先设置第一个。。。“文章内容页面地址必须包含。。。不得包含。。。” 我们随便点开http://www.77cn.com.cn/forum-60-1.html 这个网址中的两篇文章，看下URL。。就是文章地址。。

http://www.77cn.com.cn/thread-88312-1-1.html http://www.77cn.com.cn/thread-88373-1-1.html

发现以上两个地址。。。那么他们其中只有 http://www.77cn.com.cn/thread-88373-1-1.html 红色部分在变动。。。那么，文章内容必须包含。。。我们写

http://www.77cn.com.cn/thread-(*)-(*)-(*).html 这样就可以,那么我们点击“开始测试网址采集”

火车头采集器|使用手册,采集器使用教程

这个时候，我们点开网站前边的+号

发现，其实网址已经采集成功了。其中的

并不需要填写。。。这是为什么呢？因为我们采集的页面

http://www.77cn.com.cn/forum-60-1.html 中的文章地址，就是

http://www.77cn.com.cn/thread-88373-1-1.html这样的地址，至于为什么要写成

http://www.77cn.com.cn/thread-(*)-(*)-(*).html这样，是因为其中的

http://www.77cn.com.cn/thread-88373-1-1.html 红色部分都会变动。。或者有可能变动。。。所以我们加上通配符，所以我们不用填写

火车头采集器|使用手册,采集器使用教程

这个，也可以采集成功。。。

那么，为了让大家更直白的了解火车，我们还是写一下。。。。

那么我们打开 http://www.77cn.com.cn/forum-60-1.html 这个地址，在页面中，点击右键，选择“查看源文件”（因为不好截图。。。）

发现上边的东西出现，都是一些猥琐的html代码。。。我们怎么定义文章地址的区域呢？看下图

火车头采集器|使用手册,采集器使用教程

我们复制页面中的“筛选”然后在页面源码中查找下，，，

那么自然，下边的，就是文章地址的区域咯。。那么我们在

这里，填写什么呢？我们要填写一个“唯一”的东

西。。。就是这个页面独有的一个，并且在文章地址上方的一个代码。。。

火车头采集器|使用手册,采集器使用教程

如上图。我们选择这段 <div id="pgt" class="bm bw0 pgs cl"> 代码！然后我们复制 <div id="pgt" class="bm bw0 pgs cl"> 这段代码，在我们打开的源文件中，向下查找看，看看有没有相同的。。。

好消息。。没有相同了。。那么我们在填写 <div id="pgt"

火车头采集器|使用手册,采集器使用教程

class="bm bw0 pgs cl">

那么

这里怎么填写呢？其实一样。。。

我们给下看看源码。。。

我们向上查找下。。。

火车头采集器|使用手册,采集器使用教程

OK....那么。。。

就填写

就OK。。。照着这样填写就OK了。。。其实这一步是多此一举。。。只是教大家怎样填写罢了。。。

我们随便选中一条地址，双击鼠标左键。。。直接跳到第二部，采集内容规则。。。

火车头采集器|使用手册,采集器使用教程

在这里，我们点击一下测试按钮。。。

发现，标题和内容都采集到了，但是。。。在标题上，我们把目标站点的网站主标题也采集过来了。。而内容。。是把整个页面乱七八糟的东西都采集过来了。。那么。。我们开始设置更精确的采集规则。。。擦。。。首先，我们设置标题。。。现在默认的采集标题是

又出来个史上最强大的搜索引擎！！！！！！！ - 无聊扯蛋 - 张家口市姚家房镇及周边地方娱乐门户站 - Powered by Discuz!

本文来源：https://www.bwwdw.com/article/r43i.html

相关文章：

正在阅读：

火车头采集器使用手册09-05

2019年办公室励志标语墙贴纸-word范文（2页）06-22

中山大学行政管理推荐参考书05-28

自考知识产权法2006年-4月10-11

最新部编版六年级上册语文教学计划及进度表504-16

最简短经典的个性签名02-09

度米作文汇编之2016年英语六级考试作文预测必背话题过度包装03-19

音响噪音排除方法06-09

2008年福建公务员考试行测真题及答案解析：资料分析部分07-20

人教版小学语文五年级下册同步练习09-20

上一篇：2018年秋九年级英语上册Unit6TVprogrammesPeriod2ReadingⅠ听写本(新下一篇：(最全word2010教程-共五部分)第五部分：插入图表