共计 1016 个字符,预计需要花费 3 分钟才能阅读完成。
今天,小编为大家带来的教程是: 如何在前嗅 ForeSpider 中,进行采集预览。主要内容包括:采集预览的使用方法,预览链接 / 数据抽取,和预览错误情况排查;具体内容如下:
一,采集预览的使用方法
1. 采集预览在正式采集之前,可以点击界面右上方的“采集预览”按钮,以查看配置是否正确。采集预览的结果和正式采集的结果是一致的,但是只采集没有入库。采集预览的页面包括两种:链接信息(>> 预览链接抽取)和数据信息(>> 预览数据抽取)。双击链接条目,可以打开下一层页面。采集预览的页面结构和配置的模板列表结构是相同的,先预览的是模板一的采集结果,通过双击链接进入下层模板预览。
2. 模板预览或在模板列表右键,选择模板预览,可以直接查看当前模板的采集结果。
右键 - 模板预览
二,预览链接抽取
1. 未过滤当仅输入了采集地址,没有配置模板时,点击“采集预览”可以看到采集源地址能够下载的所有链接。
2. 过滤链接后当配置了链接抽取后,可以根据链接地址或标题名称过滤掉无关的链接。可以在采集预览的窗口直接输入过滤串,进行地址过滤或标题过滤。可以看到采集的链接地址全部包含该字符串,剔除了不包含的链接。
预览链接抽取
三,预览数据抽取
创建数据抽取,并为字段赋值之后,可以预览到已经抽取出来的数据。在链接抽取页面,双击某个链接,将打开下面的数据预览页面。或在数据抽取节点,右键选择“模板预览”查看。
预览数据抽取
四,预览错误情况排查
1. 频道和模板的配置错误①输入为空或不合法:频道配置的采集地址为空或不合法。②模板分类错误:分类器错误。③地址错误:采集地址不存在或已经失效。④模板错误:模板不存在或已经损坏。⑤频道入口配置错误:关键词搜索配置错误。⑥文档类型错误:采集对象是不能够识别的文档。⑦频道配置不合法:频道配置错误。
2.http 下载错误①服务器繁忙:采集对象的服务器繁忙。②域名解析错误:域名解析出现错误。③网页重定向:采集对象重新定向了新的地址。④网页未找到:未找到请求资源。⑤权限访问错误:方法禁止操作或权限不够。⑥服务器错误:本机服务发生错误。⑦网络错误:网络发生错误。⑧https 协议错误:ssl 错误。⑨代理服务器错误:代理错误。⑩内容错误:下载的页面内容发生错误。⑪用户取消下载:下载过程中用户过滤或取消。
3. 文档类型无法识别文档后缀与实际类型不符。
4. 脚本执行出错脚本配置出错。
5. 数据错误数据库插入、更新、删除、查询等发生错误。
6. 未知错误发生其他各类错误。