关于程序员:小浣熊cms用火车采集器采集漫画

火车采集器（LocoySpider）是一款信息开掘软件，把握根本用法就能够很容易从网页中抓取图片 & 文本，通过 cms 模板参数，自定义采集参数内容，它能采集信息内容并且反对在线公布，这不，搭建一个漫画网站，就容易多啦

我所应用的是 火车采集器 7.6 企业破解版

1. 多任务、多线程

2. 数据在采集时主动保留到关系数据库中，数据结构主动调整。

3. 信息收集工作能够在进行后持续从断点收集信息。

4. 反对网站 cookie，反对网站可视化登录

5. 将采集到的二进制文件 (如图片、音乐、软件、文档等) 下载到本地

6. 能够依据规定用定义的内容替换收集的后果。

7. 软件可依据用户设置和理论状况主动删除反复内容和反复网址。

8. 通过定义的接口，将收集到的后果数据公布到任何内容管理系统和指定的数据库。

我这里采集的是国漫网站：满客栈

抉择它的起因是因为好采集，找了这么多网站就它好采，~~没有分页，没有 Ajax，没有麻烦的采集规定~~ 对萌新来说真的十分敌对

当你下载好软件，也解压好了，发现找不到 火车头采集器.exe，那是因为它叫LocopyPlaform.exe，不要傻乎乎的认为下错货色了，的确没有下错货色，还是找不到 LocopyPlaform.exe，那就看看你解压的时候，是不是被防火墙给拐走了

新建工作

测试文件下新建了一个名为满客栈的工作

这里分为四个局部：

采集网址
采集内容
公布内容
高级设置

采集网址规定

点进工作，在起始网址栏目抉择增加选项，如图示：

依据 步骤 2 ，填写你所要采集的起始网址

起始网址：

也就是所说的大页面，啥是大页面。比方说，我这里的起始网址是 https://www.mkzhan.com/category/（分类页面）

在这一个网址中，外面蕴含了很多漫画内容，每一部漫画外面又有单独的页面，一个总览的页面涵盖很多所属内容，我将它定义为大页面。

然而你能够发现实际上我写的是这个网址：

https://www.mkzhan.com/catego…*

采集漫画可不止一个页面吧，只采集一个页面，那多没劲啊。你试试按下翻页按钮，翻页的时候发现网址除了 page 前面的数字有变动，其余都没变，这种有法则的变动，你不必批改过多的货色，只须要将数字用通配符 * 通配一下，就能够采取多个页面

我这里设置的是 5 页，所以预览外面呈现了 5 个页面网址，按你需要设置多少页，然而测试后期最好页数越少越好，不然测试过程很煎熬（次要是慢）

多级网址获取

点击增加

进入之后抉择 手动填写链接地址规定

脚本规定

这里写的脚本规定，应该要跑回去你的大页面（起始网址），外面有很多部漫画内容，这里咱们只抉择其中一部就好了

鼠标指向漫画名，右键点击检索，就会弹出网页元素（如下图）

咱们要的就是外面的href=”/209596/“, 要精准定位想要获取的内容，所以把整一个 p 标签给复制过来了

因为我只须要 href 外面的内容，所以将无关紧要的内容用通配符通配掉（这里统配了漫画名：圣祖）

把须要的内容用参数代替，按左边的参数键

理论链接

当我点击圣祖这个漫画时，返回给我的 url 是 https://www.mkzhan.com/209596/，那么我想得到更多漫画的 url 地址，就把方才获取的参数替换掉 209596 这个 href

所以最初写上的理论地址是：https://www.mkzhan.com/【参数 1】/

这里的参数是和下面规定的参数是一一对应的

测试一下

这就显示，你曾经采集到每一部漫画的 url 了（如果不确定本人采集到的 url 是否正确，把它复制过来看看网页能不能关上，能关上那就是胜利了）

采集内容规定

这里小浣熊 cms 官网手册传送门

参照手册的火车头 api 来写表单字段

先黏贴须要用到手册的内容，如下：（详情还是请你看手册）

采集 api 地址示例：域名 /api.php/postbot/save。
申请形式：post
表单字段及阐明：

book_name 漫画名
nick_name 漫画别名
tags 分类，多个分类用 | 隔开
author 作者名字
end 状态，1 代表完结，0 代表连载中
cover_url 封面图近程地址
chapter_name 章节名
area_id 地区 id
images 由图片标签组成的字符串，示例：

<img src="http://www.m.com/1.jpg"><img src="http://www.m.com/2.jpg"><img src="http://www.m.com/3.jpg">

chapter_order 章节序
summary 漫画简介
api_key 后盾配置的 api_key
src 用来区别采集源，本人写
src_url 用来惟一定义每个漫画，能够是该漫画的 url，也能够是该漫画在被采集站的 id
c_src_url 用来惟一定义每个章节，与 src_url 同理

哇，要写好多表单字段，好麻烦噢（小声）

漫画名字段

先来写第一个表单字段：漫画名

抉择一部漫画，进入以后漫画的 url，检索漫画名，找到它的元素地位

把下面的 p 标签内容复制放到正则匹配内容外面，如下图

# 将原先的 p 标签内容：<p class="comic-title j-comic-title"> 圣祖 </p>
#改为：<p class="comic-title j-comic-title">[参数]</p>

多页属性：

先放测试后果：

简略解释一下多页原理（解释的很乱，可能听的一头雾水）

这里有点像回溯，以后找不到指标就返回上一层。

留神：我所填写的测试 url 是：https://www.mkzhan.com/209596…

这个页面所展现的是漫画每一话中的页面（含漫画注释的），而漫画名所属的 url 是：https://www.mkzhan.com/209596/

也就是说，火车采集器是从 https://www.mkzhan.com/209596… 这个 url 开始采集的，如果找不到指标字段，就会返回到 https://www.mkzhan.com/209596/ 这个这个 url 持续寻找指标字段

多页设置

新建多页治理，同样是用正则匹配，留神一点是，在 https://www.mkzhan.com/209596… 页面检索章节的 href

# 检索到的内容：<h1 class="comic-title"><a class="last-crumb" href="/209596/504742.html"> 序章 </a></h1>
#批改后：<h1 class="comic-title"><a class="last-crumb" href="/[参数]/[参数].html">(*)</a></h1>
#组合后果：https://www.mkzhan.com/[参数 1]

这样多页就做好了

对，没错。看着手册有这么多字段，你都要一一一一写进去，不过如果你只是纯属玩玩，有些字段能够不写进去，然而别自定义新增字段，我用的这个 cms 版本还不反对自定义字段，不然到时候你死活公布不胜利

因为很多操作都是雷同的，会一个，根本剩下的都能够自行搞定，我这里就挑几个来写，要全写，啊，打咩

我挑 tags，end 和 images

tags 字段

手册要求：

tags 分类，多个分类用 | 隔开

依照之前采集的办法，失去的后果是这样的：

齐全不合乎官网的要求，这里只需做一点批改即可

在以后字段下，按增加按钮，抉择内容替换选项，将空格符改为 | 就好了

end 字段

end 字段要求：1 代表完结，0 代表连载中

解决问题，用替换内容就好了，把采集到的关键字，如”完结“，”连载中“，”已完结“，”未完结“，替换成对应的 1 和 0

具体操作还是和 tags 分类操作类似，这里就不赘述了

images 字段

images 字段要求，将采集到的图集链接作进一步批改，改成这样：

<img src="http://www.m.com/1.jpg"><img src="http://www.m.com/2.jpg"><img src="http://www.m.com/3.jpg">

然而！！！

这是一个微小的坑！我以后应用的 5.0 版本就是这个坑！搞得我前面公布始终不胜利！

我特意跑去看了 images 的对应代码，发现，改成这个样子才是正确的：

http://www.m.com/1.jpg,http://www.m.com/2.jpg,http://www.m.com/3.jpg

两头用逗号分隔

等所有字段都填写好之后，接下来就是第三步分啦！

公布内容设置

首先这里须要写 web 公布配置，还记得官网手册的那 10 几个字段吗，就是让你写规定写到手软的那几个

这里又要用上它们了

再说一次（好麻烦啊！）

先放 6 个步骤：

新建 web 公布配置就不多说了，简略，第 5 步骤这里的地址后缀，间接复制官网的 api 地址下来就好

/api.php/postbot/save

第 6 步，它来了，点击新建表单项

对着表单字段阐明来写，留神表单名千万别写错，只有一一对应了，前面公布都不是问题！

# 就是这个表单名
1.book_name 漫画名
2.nick_name 漫画别名
3.tags 分类
.......

写好之后保留模块

抉择你刚刚写好的 web 配置作为公布模块，网站根地址写你的域名地址，例如：xxx.example@example.com

抉择不须要登陆 http 申请选项，命名好配置名，ok，这就曾经整装待发的能够开始采集与公布了

收尾

点击开始工作

欢快的采集公布之旅就要开始啦！放着让它采集就好了，因为它采集真的十分慢十分慢，如果你想测试是否能公布胜利，把当初设置的 5 个翻页改为 1 个，尽量减少采集数量，这样它尽管是慢，然而缩小肯定的数量，还是会绝对快一些些的（bushi）

本片文章纯属是填本人挖的坑和摔过的坑，坑坑洼洼的，记录着也好，如果遇到什么新的问题，认真看官网文档，再不行，就去推敲源码。这个小浣熊 cms 是有官网 qq 群的，如果你所遇到的问题没有解决，能够到群外面去问

我过后就是不晓得哪里来的稚气，喜爱折腾，遇到困难不去问，而是去啃源码，草

哈哈哈人不知; 鬼不觉又水了一篇文章，溜了溜了，有空再挖坑！