今天,小编为介绍一下,前嗅 ForeSpider 中数据采集界面里:运行设置,IP 代理设置,验证码设置,这三大设置的界面,具体内容如下:
一,运行设置
数据采集前的运行设置,包括采集速度、采集策略、任务装载、网络超时、HTTP 设置、加载设置、任务模式、任务定时、预警设置、过滤设置 10 个部分。
【运行设置界面】
二,IP 代理设置
软件支持动态和静态 IP 代理,http/https/socket 代理。当需要启用 IP 代理时,需要在资源管理界面添加代理资源。
【IP 代理设置界面】
1. 启用 IP 代理启用 IP 代理采集时,需要进行代理配置。需选中“启用 IP 代理”,才能启用 IP 代理功能。
【启用 IP 代理】
2.IP 资源列表添加完成的 IP 资源后会在列表中显示。
【IP 资源列表】
添加 IP 资源代理
删除 IP 资源代理
保存 IP 资源代理
修改 IP 资源代理
3.IP 代理配置可添加 IP 代理账号,配置 IP 代理属性。(1)静态代理 IP
【静态代理 IP 配置】
添加 IP 资源代理
删除 IP 资源代理
批量导入 IP 账号
保存 IP 资源代理(2)动态代理 IP
【动态代理 IP 配置】①协议类型:选择代理的协议类型,软件支持 http/https/socket 代理。②返回格式:选择动态 IP 的返回格式。包括未知、Text、Json、XML。③刷新周期:指代理 IP 的有效时长。④请求地址:粘贴代理商的请求地址。⑤POST DATA:根据代理不同,post 请求的情况下填写该内容。⑥代码编辑区:需要填写一段脚本,以调用代理 IP。
4. 启用代理加速启用代理加速后,可以在采集过程中自动筛选无效和低效率的代理 IP(屏蔽错误率超过 50%,请求次数 >3 次的 IP),优先使用高效的代理,提升采集的效率和数据质量。
【代理加速】
5. 本机 IP 混用策略当代理 IP 失效时,选择是否启用本地网络。
【本机 IP 混用策略】
三,验证码设置
当采集某些网站的数据时,每一条数据都需要输入一条验证码时就用到了验证码设置。验证码设置的作用是爬虫软件自身输入验证码,以避免人工输入。
【验证码设置界面】
1. 识别平台软件内置了两个打码平台,可根据不同的平台进行验证码配置。
【识别平台】(1)基础识别平台:预定的内置识别方式。(2)若快:若快为打码平台。软件通过打码平台解析验证码内容。
2. 识别列表添加验证码识别名称。
【识别列表】
3. 验证码设置与测试(不常用)
【资源配置】其中红框内详情、保存、下载、清空、测试是用来测试验证码是否正确的。点击测试如果右侧验证码图片与图片下解析出来的文字一致,就证明验证码设置的正确。