共计 4045 个字符,预计需要花费 11 分钟才能阅读完成。
火车采集器(LocoySpider)是一款信息开掘软件,把握根本用法就能够很容易从网页中抓取图片 & 文本,通过 cms 模板参数,自定义采集参数内容,它能采集信息内容并且反对在线公布,这不,搭建一个漫画网站,就容易多啦
版本
我所应用的是 火车采集器 7.6 企业破解版
性能简略介绍
1. 多任务、多线程
2. 数据在采集时主动保留到关系数据库中,数据结构主动调整。
3. 信息收集工作能够在进行后持续从断点收集信息。
4. 反对网站 cookie,反对网站可视化登录
5. 将采集到的二进制文件 (如图片、音乐、软件、文档等) 下载到本地
6. 能够依据规定用定义的内容替换收集的后果。
7. 软件可依据用户设置和理论状况主动删除反复内容和反复网址。
8. 通过定义的接口,将收集到的后果数据公布到任何内容管理系统和指定的数据库。
开始吧
指标采集漫画网站
我这里采集的是国漫网站:满客栈
抉择它的起因是因为好采集,找了这么多网站就它好采,没有分页,没有 Ajax,没有麻烦的采集规定 对萌新来说真的十分敌对
关上软件
当你下载好软件,也解压好了,发现找不到 火车头采集器.exe,那是因为它叫LocopyPlaform.exe,不要傻乎乎的认为下错货色了,的确没有下错货色,还是找不到 LocopyPlaform.exe,那就看看你解压的时候,是不是被防火墙给拐走了
新建工作
测试文件下新建了一个名为满客栈的工作
写规定
这里分为四个局部:
- 采集网址
- 采集内容
- 公布内容
- 高级设置
采集网址规定
点进工作,在起始网址栏目抉择增加选项,如图示:
依据 步骤 2 ,填写你所要采集的起始网址
起始网址:
也就是所说的大页面,啥是大页面。比方说,我这里的起始网址是 https://www.mkzhan.com/category/(分类页面)
在这一个网址中,外面蕴含了很多漫画内容,每一部漫画外面又有单独的页面,一个总览的页面涵盖很多所属内容,我将它定义为大页面。
然而你能够发现实际上我写的是这个网址:
https://www.mkzhan.com/catego…*
采集漫画可不止一个页面吧,只采集一个页面,那多没劲啊。你试试按下翻页按钮,翻页的时候发现网址除了 page 前面的数字有变动,其余都没变,这种有法则的变动,你不必批改过多的货色,只须要将数字用通配符 * 通配一下,就能够采取多个页面
我这里设置的是 5 页,所以预览外面呈现了 5 个页面网址,按你需要设置多少页,然而测试后期最好页数越少越好,不然测试过程很煎熬(次要是慢)
多级网址获取
点击增加
进入之后抉择 手动填写链接地址规定
- 脚本规定
这里写的脚本规定,应该要跑回去你的大页面(起始网址),外面有很多部漫画内容,这里咱们只抉择其中一部就好了
鼠标指向漫画名,右键点击 检索,就会弹出网页元素(如下图)
咱们要的就是外面的href=”/209596/“, 要精准定位想要获取的内容,所以把整一个 p 标签给复制过来了
因为我只须要 href 外面的内容,所以将无关紧要的内容用通配符通配掉(这里统配了漫画名:圣祖)
把须要的内容用参数代替,按左边的参数键
- 理论链接
当我点击圣祖这个漫画时,返回给我的 url 是 https://www.mkzhan.com/209596/,那么我想得到更多漫画的 url 地址,就把方才获取的参数替换掉 209596 这个 href
所以最初写上的理论地址是:https://www.mkzhan.com/【参数 1】/
这里的参数是和下面规定的参数是一一对应的
- 测试一下
这就显示,你曾经采集到每一部漫画的 url 了(如果不确定本人采集到的 url 是否正确,把它复制过来看看网页能不能关上,能关上那就是胜利了)
采集内容规定
这里小浣熊 cms 官网手册传送门
参照手册的火车头 api 来写表单字段
先黏贴须要用到手册的内容,如下:(详情还是请你看手册)
- 采集 api 地址示例:域名 /api.php/postbot/save。
- 申请形式:post
- 表单字段及阐明:
- book_name 漫画名
- nick_name 漫画别名
- tags 分类,多个分类用 | 隔开
- author 作者名字
- end 状态,1 代表完结,0 代表连载中
- cover_url 封面图近程地址
- chapter_name 章节名
- area_id 地区 id
- images 由图片标签组成的字符串,示例:
<img src="http://www.m.com/1.jpg"><img src="http://www.m.com/2.jpg"><img src="http://www.m.com/3.jpg">
- chapter_order 章节序
- summary 漫画简介
- api_key 后盾配置的 api_key
- src 用来区别采集源,本人写
- src_url 用来惟一定义每个漫画,能够是该漫画的 url,也能够是该漫画在被采集站的 id
- c_src_url 用来惟一定义每个章节,与 src_url 同理
哇,要写好多表单字段,好麻烦噢(小声)
漫画名字段
先来写第一个表单字段:漫画名
抉择一部漫画,进入以后漫画的 url,检索漫画名,找到它的元素地位
把下面的 p 标签内容复制放到正则匹配内容外面,如下图
# 将原先的 p 标签内容:<p class="comic-title j-comic-title"> 圣祖 </p>
#改为:<p class="comic-title j-comic-title">[参数]</p>
多页属性:
先放测试后果:
简略解释一下多页原理(解释的很乱,可能听的一头雾水)
这里有点像回溯,以后找不到指标就返回上一层。
留神:我所填写的测试 url 是:https://www.mkzhan.com/209596…
这个页面所展现的是漫画每一话中的页面(含漫画注释的),而漫画名所属的 url 是:https://www.mkzhan.com/209596/
也就是说,火车采集器是从 https://www.mkzhan.com/209596… 这个 url 开始采集的,如果找不到指标字段,就会返回到 https://www.mkzhan.com/209596/ 这个这个 url 持续寻找指标字段
多页设置
新建多页治理,同样是用正则匹配,留神一点是,在 https://www.mkzhan.com/209596… 页面检索章节的 href
# 检索到的内容:<h1 class="comic-title"><a class="last-crumb" href="/209596/504742.html"> 序章 </a></h1>
#批改后:<h1 class="comic-title"><a class="last-crumb" href="/[参数]/[参数].html">(*)</a></h1>
#组合后果:https://www.mkzhan.com/[参数 1]
这样多页就做好了
对,没错。看着手册有这么多字段,你都要一一一一写进去,不过如果你只是纯属玩玩,有些字段能够不写进去,然而别自定义新增字段,我用的这个 cms 版本还不反对自定义字段,不然到时候你死活公布不胜利
因为很多操作都是雷同的,会一个,根本剩下的都能够自行搞定,我这里就挑几个来写,要全写,啊,打咩
我挑 tags,end 和 images
tags 字段
手册要求:
tags 分类,多个分类用 | 隔开
依照之前采集的办法,失去的后果是这样的:
齐全不合乎官网的要求,这里只需做一点批改即可
在以后字段下,按增加按钮,抉择内容替换选项,将空格符改为 | 就好了
end 字段
end 字段要求:1 代表完结,0 代表连载中
解决问题,用替换内容就好了,把采集到的关键字,如”完结“,”连载中“,”已完结“,”未完结“,替换成对应的 1 和 0
具体操作还是和 tags 分类操作类似,这里就不赘述了
images 字段
images 字段要求,将采集到的图集链接作进一步批改,改成这样:
<img src="http://www.m.com/1.jpg"><img src="http://www.m.com/2.jpg"><img src="http://www.m.com/3.jpg">
然而!!!
这是一个微小的坑!我以后应用的 5.0 版本就是这个坑!搞得我前面公布始终不胜利!
我特意跑去看了 images 的对应代码,发现,改成这个样子才是正确的:
http://www.m.com/1.jpg,http://www.m.com/2.jpg,http://www.m.com/3.jpg
两头用逗号分隔
等所有字段都填写好之后,接下来就是第三步分啦!
公布内容设置
首先这里须要写 web 公布配置,还记得官网手册的那 10 几个字段吗,就是让你写规定写到手软的那几个
这里又要用上它们了
再说一次(好麻烦啊!)
先放 6 个步骤:
新建 web 公布配置就不多说了,简略,第 5 步骤这里的地址后缀,间接复制官网的 api 地址下来就好
/api.php/postbot/save
第 6 步,它来了,点击新建表单项
对着表单字段阐明来写,留神表单名千万别写错,只有一一对应了,前面公布都不是问题!
# 就是这个表单名
1.book_name 漫画名
2.nick_name 漫画别名
3.tags 分类
.......
写好之后保留模块
抉择你刚刚写好的 web 配置作为公布模块,网站根地址写你的域名地址,例如:xxx.example@example.com
抉择不须要登陆 http 申请选项,命名好配置名,ok,这就曾经整装待发的能够开始采集与公布了
收尾
点击开始工作
欢快的采集公布之旅就要开始啦!放着让它采集就好了,因为它采集真的十分慢十分慢,如果你想测试是否能公布胜利,把当初设置的 5 个翻页改为 1 个,尽量减少采集数量,这样它尽管是慢,然而缩小肯定的数量,还是会绝对快一些些的(bushi)
本片文章纯属是填本人挖的坑和摔过的坑,坑坑洼洼的,记录着也好,如果遇到什么新的问题,认真看官网文档,再不行,就去推敲源码。这个小浣熊 cms 是有官网 qq 群的,如果你所遇到的问题没有解决,能够到群外面去问
我过后就是不晓得哪里来的稚气,喜爱折腾,遇到困难不去问,而是去啃源码,草
哈哈哈人不知; 鬼不觉又水了一篇文章,溜了溜了,有空再挖坑!