前言:
模型作用为提取三元组,基于英文,目前尝试改为中文。
论文题目名称叫《Open Language Learning for Information Extraction》, 代码地址:https://github.com/knowitall/…
论文核心:
论文核心主要解决 2 个问题,一个是基于动词结构之外的三元组提取,例如形容词等,二是基于上下文的三元组提取,举例说明。这里论文与 reverb 和 woe 两种抽取方式做比较。
在 1 - 3 句话中,基于 reverb 和 woe 的提取为 none,即什么也提取不到。但基于 ollie,其可以提取到,也就是解决了 reverb 和 woe 的第一个缺点。
举例说明一下:例如第一句 Saint 赢了超级杯后,就成了美国橄榄球联盟的顶级球员。这句话里没有动词,所以 reverb 和 woe 什么都提取不到。
在 4 - 5 句中,ollie 是基于上下文的抽取,所以 reverb 和 woe 的抽取只能抽到地球是宇宙的中心,但无法抽到 eraly astronmers,而 ollie 能够抽到 attributedto。
举例:在很早以前人们认为地球是宇宙的中心,reverb 和 woe 提取的是地球是宇宙中心,这显然不对。而 ollie 可以提取到 AttributedTo 相信; 早期的天文学家。
以上两点取自论文 Introduction。
如何做的:
1. 扩展关系短语的句法范围,以涵盖更多的关系表达式。
2. 扩大开放即表示允许额外的上下文信息, 如归因和子句的修饰符
具体做法:
(1)构造一个引导集