前嗅ForeSpider教程:创建模板

26次阅读

共计 1373 个字符,预计需要花费 4 分钟才能阅读完成。

今天,小编为大家带来的教程是:如何在前嗅 ForeSpider 中创建模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下:
一,模板的概念
模板列表的层级相当于网页跳转的层级。模板一类似于网站首页,每个模板代表了同一层级的页面,通过适当的配置,可以采集全站数据。正如网站是通过链接之间的跳转,来实现网站各层级页面的连接,ForeSpider 也是通过模板中的链接抽取,来实现模板之间的关联。通过抽取网页中的全部链接,再进行精准过滤,就可以既全面又精确的获取所需的全部数据。正如网站通过正文 / 数据页展示数据,ForeSpider 也是通过模板中的数据抽取,来获取所需数据。
二,模板的配置方式
1. 模板的创建模板的创建,有如下三种情况:①新建任务后:创建新的任务之后,选择页面需要抽取的内容,点击完成后,软件自动创建对应抽取内容的模板。②自动创建后续模板:点击配置向导上方的“下一步”,会自动创建模板。③手动创建模板:点击模板列表上方的添加按钮,创建模板。
2. 抽取所需内容根据内置浏览器显示的页面内容,选择本页面需要抽取的内容。选择页面抽取内容

①抽取链接:需要抽取页面上的链接时,选择抽取链接以及具体的链接类型,会建立对应的链接抽取。(方式一:智能过滤 / 方式二:定位过滤 / 方式三:地址 / 标题过滤)②抽取数据:需要抽取页面上的数据时,选择抽取数据,会建立对应的数据抽取。(>> 如何选择表单)例如:需要采集新闻的正文数据,当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接进入的,所以本页面需要抽取新闻链接。软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。
3. 如何填写示例地址(1)模板一的示例地址,自动默认为该任务的采集地址。(2)其他模板的示例地址,自动默认为上一级模板抽取到的某个链接地址。(3)如果默认的示例地址不符合需求,可以手动修改示例地址,方法如下:①采集入口地址(模板一)的选择一般选择目标网站的入口地址,比如首页。②示例地址的选择大多数情况下,采集地址只填写一个 url 地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。例 1:采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。例 2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。例 3:只采集某商品的评论信息,该商品的链接地址就是入口地址。
三,模板的高级选项
1、字符编码
默认自动识别。如果该页面未能自动识别发生乱码,需要自行选择字符编码。可以选择 GBK 或 UTF-8。
2、文档类型
默认自动识别。可以选择采集 xml 文档。
3、网页类型
适用于一个模板配置大批量网站的情况(可导入上万个采集地址),选择类型后,可以自动过滤不属于该类型的网页,从而达到快速配置的目的。网页类型包括:全部类型、导航页、列表页、(文本)内容页、详情页、附件、未知页。
4、主题过滤
自动识别网页的语义,并采集属于某些类别的数据,过滤掉不属于某些类别的数据。(针对自动分类器使用,如有需求请联系我们定制。)
5.、未匹配处理模板
适用于一个模板配置大批量网站的情况,当有页面不符合匹配的类型被过滤掉后,可以在此选择一个针对未匹配页面的处理模板,进入其他处理流程。

正文完
 0