本教程主要对前嗅 ForeSpider 脚本做了详细的介绍。主要内容包括:脚本结构,脚本与可视化配置的关系,各节点脚本之间的关系,以及脚本编辑区。具体内容如下:
一.ForeSpider 脚本结构
ForeSpider 脚本是前嗅自主研发的爬虫脚本语言,风格类似于 JavaScript。ForeSpider 脚本语言属于轻量级的脚本语言, 为支持高级数据采集的规则补充,它支持对象操作,函数,数组及对象定义,借助内置的采集及系统对象几乎能够完成所有的采集任务,以及灵活的采集控制,同时让采集引擎有更强的灵活性和扩展性。
1. 频道
包括“频道脚本”。
2. 模板(1)模板配置包括“模板脚本”。(2)链接部分包括“链接抽取脚本”、“链接过滤脚本”。(3)数据部分包括“数据抽取脚本”。(4)字段部分包括“字段取值脚本”、“字段处理脚本”。
二. 脚本与可视化配置的关系
1. 各部分配置可以完全使用脚本编写,不进行可视化操作;2. 同一步骤既进行了可视化操作的配置,又编写了脚本,则由脚本接管,可视化配置失效;3. 各步骤可以一部分使用脚本编写,一部分使用可视化操作,不重复的配置都有效,重复的配置以脚本优先接管。
三. 各节点脚本之间的关系
1. 上一操作层级的脚本配置区域可以编写涵盖其下面所有操作层级功能的脚本;2. 如果各层级之间的脚本有重复,以其中高层级步骤的脚本优先生效;3. 可以将脚本分散于各操作层级编写,也可以直接在最高操作层级(频道脚本)编写。
四. 脚本编辑区介绍
第一级:频道配置 - 脚本配置在“频道配置”时,通过使用系统内置的脚本语言对频道进行配置。①选中该频道;②点击“脚本窗口”,使其变为“浏览器窗口”;③点击“新建”图标,即可创建频道脚本。
频道脚本
第二级:模板脚本
模板脚本可以编写整个模板配置的脚本。①选中该模板;②点击“脚本窗口”,使其变为“浏览器窗口”;③点击“新建”图标,即可创建模板脚本。
模板脚本
第三级:链接 / 数据抽取脚本
1. 链接文本链接脚本可以编写整个链接抽取的脚本。①选中该链接抽取;②点击“脚本窗口”,使其变为“浏览器窗口”;③点击“新建”图标,即可创建链接脚本。
链接脚本
2. 数据抽取脚本数据抽取脚本可以编写整个数据抽取的脚本。①选中该数据抽取;②点击“脚本窗口”,使其变为“浏览器窗口”;③点击“新建”图标,选择“数据抽取脚本 / 数据过滤脚本”按钮,即可生成相应的代码区。
选择数据抽取脚本
数据抽取脚本
第四级:链接过滤、字段取值 / 清洗脚本
1. 链接过滤脚本链接过滤脚本可以编写链接地址或链接标题过滤的脚本。①选中该链接抽取;②勾选“地址过滤 / 标题过滤”复选框,并选择“脚本过滤”;③可自动生成相应的“地址过滤 / 标题脚本 ” 区。
地址过滤脚本
标题过滤脚本
2. 字段取值脚本字段取值脚本可以编写该字段取值的脚本。①选中该字段;②在“采集内容”处,勾选“高级取值 -> 脚本过滤”;③可自动生成相应的字段取值脚本区。
字段取值脚本
3. 字段处理脚本字段处理脚本可以编写该字段数据处理的脚本。①选中该字段;②在“数据清洗”处,勾选“脚本处理”;③可自动生成相应的字段处理脚本区。
选择字段处理脚本
字段处理脚本