前嗅ForeSpider脚本教程-链接过滤脚本

28次阅读

共计 418 个字符,预计需要花费 2 分钟才能阅读完成。

今天,小编给大家带来的教程为:前嗅 ForeSpider 脚本教程 - 链接过滤脚本,应用场景,地址 / 标题过滤。具体内容如下:一. 应用场景当可视化抽取到的链接包含不想要的链接地址时,需要进行过滤。可能用到的类是:string,使用到的全局对象是 VALUE。二. 地址过滤场景:链接地址有规律。示例:可视化配置百度搜索之后的链接抽取,过滤掉不是列表链接和翻页链接的所有链接。

脚本实例:
If(VALUE.Find(“wd=”)!=-1||VALUE.Find(“url=”)!=-1)
return true; //return true 代表保留链接
else return false; //return false 代表过滤链接

三. 标题过滤场景:链接标题有规律。示例:过滤掉所有标题不为空字符串的链接,并返回链接标题为”关键词”。

脚本实例:
f(VALUE!=””)
return false; // 代表过滤链接
else return“关键词”; // 否则保留并覆盖标题为关键词

正文完
 0

前嗅ForeSpider脚本教程:链接过滤脚本

28次阅读

共计 573 个字符,预计需要花费 2 分钟才能阅读完成。

链接过滤脚本是地址和标题过滤中的脚本,过滤类型必须选择脚本过滤时过滤脚本才能生效,过滤脚本用于处理复杂的链接或标题过滤需求。
一. 可用全局对象(只读)
EXTRACT: 当前采集引擎[对象类型: extractor]DATADB: 当前连接的数据库[对象类型: dataBase]RESULT: 当前结果集对象[对象类型: result]URL: 当前采集的链接对象[对象类型: url]URLTEXT : 描述当前链接采集的所有状态及属性的对象[对象类型: urltext]DOC: 当前采集的文档对象[对象类型: grabDoc]DOM: 当前采集文档的 dom 对象[对象类型: dom]ITEM: 当前链接 dom 树的 href 标签节点[对象类型: domItem]TMPL: 当前文档模板对象[对象类型: tmplTmpl]LINK: 当前链接抽取对象[对象类型: tmplLink]VALUE: 当前被过滤的字符串[对象类型: string]
二.this 对象
当前链接过滤 [tmplFilter] 对象。
三. 脚本返回值
返回非 0 保留, 否则过滤。
示例:
1. 以下脚本过滤空白链接:
if(VALUE)
return true;
else return false;

2.【标题过滤】以下脚本过滤标题的长度小于 5 个字符的链接:
if(VALUE.length>=5)
return true;
else return false;

正文完
 0