前嗅ForeSpider教程：创建模板

今天，小编为大家带来的教程是：如何在前嗅ForeSpider中创建模板。主要内容有：模板的概念，模板的配置方式，模板的高级选项，具体内容如下：
一，模板的概念
模板列表的层级相当于网页跳转的层级。模板一类似于网站首页，每个模板代表了同一层级的页面，通过适当的配置，可以采集全站数据。正如网站是通过链接之间的跳转，来实现网站各层级页面的连接，ForeSpider也是通过模板中的链接抽取，来实现模板之间的关联。通过抽取网页中的全部链接，再进行精准过滤，就可以既全面又精确的获取所需的全部数据。正如网站通过正文/数据页展示数据，ForeSpider也是通过模板中的数据抽取，来获取所需数据。
二，模板的配置方式
1.模板的创建模板的创建，有如下三种情况：①新建任务后：创建新的任务之后，选择页面需要抽取的内容，点击完成后，软件自动创建对应抽取内容的模板。②自动创建后续模板：点击配置向导上方的“下一步”，会自动创建模板。③手动创建模板：点击模板列表上方的添加按钮，创建模板。
2.抽取所需内容根据内置浏览器显示的页面内容，选择本页面需要抽取的内容。选择页面抽取内容

①抽取链接：需要抽取页面上的链接时，选择抽取链接以及具体的链接类型，会建立对应的链接抽取。（方式一：智能过滤/方式二：定位过滤/方式三：地址/标题过滤）②抽取数据：需要抽取页面上的数据时，选择抽取数据，会建立对应的数据抽取。（>>如何选择表单）例如：需要采集新闻的正文数据，当前页面是新闻首页，汇集了新闻的链接，正文数据是通过点击新闻链接进入的，所以本页面需要抽取新闻链接。软件预置了一些常见的链接页面场景，此时勾选链接列表，软件会自动建立一个链接抽取。
3.如何填写示例地址（1）模板一的示例地址，自动默认为该任务的采集地址。（2）其他模板的示例地址，自动默认为上一级模板抽取到的某个链接地址。（3）如果默认的示例地址不符合需求，可以手动修改示例地址，方法如下：①采集入口地址（模板一）的选择一般选择目标网站的入口地址，比如首页。②示例地址的选择大多数情况下，采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的，能够套用同一套采集模板进行采集，可填写多个采集地址，中间用回车换行分隔。如果不一致，需要创建新的采集任务。例1：采集整个淘宝网全部商品的信息，淘宝网首页就是入口地址。例2：只采集“女装”类别的商品信息，“女装”首页就是入口地址。例3：只采集某商品的评论信息，该商品的链接地址就是入口地址。
三，模板的高级选项
1、字符编码
默认自动识别。如果该页面未能自动识别发生乱码，需要自行选择字符编码。可以选择GBK或UTF-8。
2、文档类型
默认自动识别。可以选择采集xml文档。
3、网页类型
适用于一个模板配置大批量网站的情况（可导入上万个采集地址），选择类型后，可以自动过滤不属于该类型的网页，从而达到快速配置的目的。网页类型包括：全部类型、导航页、列表页、（文本）内容页、详情页、附件、未知页。
4、主题过滤
自动识别网页的语义，并采集属于某些类别的数据，过滤掉不属于某些类别的数据。（针对自动分类器使用，如有需求请联系我们定制。）
5.、未匹配处理模板
适用于一个模板配置大批量网站的情况，当有页面不符合匹配的类型被过滤掉后，可以在此选择一个针对未匹配页面的处理模板，进入其他处理流程。

前嗅ForeSpider教程：创建模板

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

前嗅ForeSpider教程：创建模板

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复