前嗅ForeSpider脚本教程:数据过滤脚本

37次阅读

共计 674 个字符,预计需要花费 2 分钟才能阅读完成。

数据过滤脚本与数据抽取脚本并列的脚本, 它的作用是对抽取的数据进行过滤。注意:一旦有了数据过滤脚本则数据抽取脚本将失效,即“数据处理”下拉菜单必须选择“数据过滤脚本”。
一. 可用全局对象(只读)
EXTRACT:当前采集引擎[对象类型:extractor]DATADB:当前连接的数据库[对象类型:dataBase]RESULT:当前结果集对象[对象类型:result]URL:当前采集的链接对象[对象类型:url]URLTEXT : 描述当前链接采集的所有状态及属性的对象[对象类型: urltext]DOC:当前采集的文档对象[对象类型:grabDoc]DOM:当前采集文档的 dom 对象[对象类型:dom]ITEM:模板区域的 dom 树节点(如果模板未选择区域则为 dom 树的根节点)[对象类型:domItem]TMPL:当前文档模板对象[对象类型:tmplTmpl]REC:当前记录集对象[对象类型:record]
二.this 对象
当前数据记录 [record] 对象。
三. 脚本返回值
返回 true(非 0)则保留记录,不返回或者返回 false(0)则丢弃记录。
四. 示例:
示例一:只保留正文内容长度为 1000~3000 字符的记录。
if(this.content.length>=1000 && this.content.length<=3000)
return true;
else return false;

示例二:以下脚本过滤掉字段 content 为空的的记录(即 content 字段必须有值)。
if(this.content)
return true;
else return false;

正文完
 0