关于自然语言处理:开源百度中文依存句法分析工具DDParser重磅开源欢迎大家体验测评

141次阅读

共计 1986 个字符,预计需要花费 5 分钟才能阅读完成。

_欢送关注【百度 NLP】官网公众号,及时获取自然语言解决畛域核心技术干货!!
浏览原文:https://mp.weixin.qq.com/s/HdI16Yr4Y1YnEamzsJ3WrQ_


继百度词法剖析工具 LAC 2.0 开源之后,8 月 4 日,百度 NLP 又重磅公布了 中文依存句法分析工具—DDParser

相较于目前的其余句法分析工具,DDParser 基于大规模标注数据进行模型的训练,采取了更加简略易了解的标注关系,并且反对一键装置及调用,更加适宜开发者疾速学习及应用。

开源地址:

https://github.com/baidu/DDParser

DDParser 是什么

DDParser(Baidu Dependency Parser)是百度 NLP 基于大规模标注数据和深度学习平台飞桨研发的中文依存句法分析工具,可帮忙用户间接获取输出文本中的 关联词对 长距离依赖词对 等。

如图 1 所示,输出文本通过 DDParser 输入其对应的句法分析树,其中,两词之间的弧示意两个词具备依赖关系,由外围词指向依存词,弧上的标签示意依存词对外围词的关系。

图 1

DDParser 能做什么

通过依存句法分析可间接获取输出文本中的关联词对、长距离依赖词对等,其对 事件抽取 情感剖析 问答 等工作均有帮忙。

如图 1 所示实例,在 事件抽取工作 中,咱们通过依存剖析后果可提取句子中所蕴含的各种粒度的事件,如“纳达尔击败梅德韦杰夫”、“纳达尔夺得冠军”、“纳达尔夺得 2019 年美网男单冠军”。

相应的,在 问答工作 中,咱们依据问题的句法树与答案所在文本的句法树进行基于树的构造匹配,可获取对应的答案。例如,问题“谁夺得了 2019 年美网男单冠军”,句法树见图 2,其答案所在文本的句法树见图 1,咱们通过两棵树的对应局部匹配,可得出答案为“纳达尔”。

图 2

情感剖析工作 中,依存剖析可用于评估对象的情感极性判断。如图 3 所示,咱们依据依存剖析后果提取评估对象“羊肉串”的观点:“羊肉串咸”和“羊肉串不陈腐”,基于此来判断该评估对象的情感极性。

图 3

利用依存剖析后果可获取词之间的依赖关系和关联门路,如图 4 所示实例。前半句中存在两条门路“打疫苗”和“在哪儿打”,后半句中存在两条门路“打疫苗”和“打在哪儿”,这些门路信息能够给类似度计算等其余工作提供更多特色。

图 4

总而言之,依存剖析将句子示意为一棵树,提供了词之间的依赖关系和关联门路,其在句子序列根底上提供了更多的句子构造信息,可帮忙其余工作从句子构造角度获取所需信息。

DDParser 的劣势

基于大规模优质标注数据

DDParser 训练数据近百万,蕴含 搜寻 query、网页文本、语音输入数据 等,笼罩了 新闻、论坛 等多种场景。从利用的角度登程,为了不便用户疾速上手,DDParser 共设计了14 种依存关系,并着重凸显虚词间的关系,在随机数据上 LAS 可达到86.9%

基于深度学习框架,不依赖简约的特色工程

首先,DDParser 采纳 bilinear attention mechanism 对句子语义进行示意,代替简单的特色工程模式。其次,其输出层退出了词的 char 级别示意,缓解粒度不同带来的成果降落,网络结构如图 5 所示。

图 5

调用便捷

DDParser 反对 Python 一键装置,不便用户疾速应用。

DDParser 与其余开源工具的成果比照

DDParser 在与训练数据同源散布的规范测试汇合上,LAS 达到 92.9%。同时,为了验证 DDParser 在中文句法分析的劣势,咱们抉择市面上关注度高的 2 款句法分析开源工具进行成果比照,评估形式为专家依据各工具依存关系定义人工标注。

经测试,在从搜寻、聊天、网页文本、语音输入等数据汇合中随机抽取形成的随机测试汇合上,DDParser 成果达到了 86.9%,成果优于同类工具,具体成果比照状况如表 1 所示。

表 1

DDParser 如何装置应用

DDParser 反对 pip 一键装置,兼容 Windows、Linux 和 MacOS,调用办法如下所示:

pip install ddparser

from ddparser import DDParser

ddp = DDParser()

ddp.parse(“ 百度是一家高科技公司 ”)

具体装置办法参见 GitHub 的 README 文档中的疾速开始。

目前,DDParser 曾经开源,点击链接即可跳转 GitHub 开源地址理解更多技术详情,欢送大家体验,并奉献你的 star 和 Fork!!!

如果您有任何意见或问题都能够提 issue 到 Github,工具开发者将及时为您解答。

DDParser 我的项目地址:
https://github.com/baidu/DDParser

百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。

正文完
 0