共计 1484 个字符,预计需要花费 4 分钟才能阅读完成。
从今天起,小编开始教大家逐步进行可视化配置操作。首先,我们来学习第一步:创建新任务,主要包括创建新任务的操作步骤,操作中的注意事项两部分内容。
一,创建新任务操作步骤:
1. 添加新任务
点击任务列表右侧,新建任务文件。
【添加任务】此时会出现一个弹框,可以在弹框中填写采集地址,修改任务名称,以及选择是否需要登录 / 关键词采集。
【新建任务】
2. 填写采集地址
在弹窗里填写采集地址和任务名称。
【填写采集地址】
采集地址一般选择目标网站的入口地址,比如首页。大多数情况下,采集地址只填写一个 url 地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。
例 1:采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。
例 2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。
例 3:只采集某商品的评论信息,该商品的链接地址就是入口地址。
3. 选择当前页面所需内容
创建新的任务之后,点击“下一步”,选择页面需要抽取内容。①抽取链接:需要抽取页面上的链接时,选择抽取链接以及具体的链接类型,会建立对应的链接抽取。(方式一:智能过滤 / 方式二:定位过滤 / 方式三:地址 / 标题过滤)②抽取数据:需要抽取页面上的数据时,选择抽取数据,会建立对应的数据抽取。(>> 如何选择表单)例如:需要采集新闻的正文数据,当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接进入的,所以本页面需要抽取新闻链接。软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。
【选择页面抽取内容】点击“完成”,软件自动创建对应的抽取内容的模板。
二,创建新任务注意事项
1. 如何选择采集类型
采集类型分为默认(html)和本地文件目录两种。(1)默认(html):采集网站上的各种信息(2)本地文件目录:采集本地文件目录信息。
【设置采集类型】
2. 什么情况下选择浏览器采集
在页面均由 JS 生成时,采集效果不理想的情况下,可以尝试使用“浏览器采集”,该方式近乎于在浏览器上点击,会减慢采集速度,但是对 JS 语法的支持更加全面。浏览器采集:通过浏览器的方式采集数据。适用情况:由大量 JS 生成的,采集难度大的网页。对 JS 语法的支持更加全面,近乎于在浏览器上点击,但采集速度慢、效率低。
【设置浏览器采集】
3.Cookie 的使用方法
① 配置 Cookie(1)填写 Cookie:正常情况下(除 JS 生成的 Cookie 外),软件会自动获取 Cookie。当软件无法获取到网页的 Cookie 时,需要参考下文从浏览器寻找 Cookie。(2)禁用 Cookie 的情况:对于不需要 Cookie 的网站,选择“禁用 Cookie”,可加快采集速度。
【Cookie 配置】② 如何通过浏览器寻找 cookie 在获取不到登录状态的时候,可以通过浏览器的 F12 开发者工具进行手动的获取 Cookie。首先先用浏览器打开网页,点击 F12 打开开发者工具,如图所示。
接下来点击 network 网络任务列表。
在浏览器上输入用户名密码,点击登录
可以在 network 里面看到出现很多条任务,从中就可以找到关于登录的 cookie。
③ 多账号登录的 Cookie 处理当需要登录多个账号来抓取同一个网页时,可以在采集列表中设置多个采集任务,采集地址填写一个地址,填写不同的 Cookie 信息即可。
4. 什么情况下禁用 JavaScript
对于有些把 JavaScript 只用于美观效果的网页,关闭 JavaScript 不影响采集数据时,可以加快采集速度。
【JavaScript 配置】