_欢送关注【百度NLP】官网公众号,及时获取自然语言解决畛域核心技术干货!!
浏览原文:https://mp.weixin.qq.com/s/HdI16Yr4Y1YnEamzsJ3WrQ_
继百度词法剖析工具LAC 2.0开源之后,8月4日,百度NLP又重磅公布了中文依存句法分析工具—DDParser!
相较于目前的其余句法分析工具,DDParser基于大规模标注数据进行模型的训练,采取了更加简略易了解的标注关系,并且反对一键装置及调用,更加适宜开发者疾速学习及应用。
开源地址:
https://github.com/baidu/DDParser
DDParser是什么
DDParser(Baidu Dependency Parser)是百度NLP基于大规模标注数据和深度学习平台飞桨研发的中文依存句法分析工具,可帮忙用户间接获取输出文本中的关联词对、长距离依赖词对等。
如图1所示,输出文本通过DDParser输入其对应的句法分析树,其中,两词之间的弧示意两个词具备依赖关系,由外围词指向依存词,弧上的标签示意依存词对外围词的关系。
图1
DDParser能做什么
通过依存句法分析可间接获取输出文本中的关联词对、长距离依赖词对等,其对事件抽取、情感剖析、问答等工作均有帮忙。
如图1所示实例,在事件抽取工作中,咱们通过依存剖析后果可提取句子中所蕴含的各种粒度的事件,如“纳达尔击败梅德韦杰夫”、“纳达尔夺得冠军”、“纳达尔夺得2019年美网男单冠军”。
相应的,在问答工作中,咱们依据问题的句法树与答案所在文本的句法树进行基于树的构造匹配,可获取对应的答案。例如,问题“谁夺得了2019年美网男单冠军”,句法树见图2,其答案所在文本的句法树见图1,咱们通过两棵树的对应局部匹配,可得出答案为“纳达尔”。
图2
在情感剖析工作中,依存剖析可用于评估对象的情感极性判断。如图3所示,咱们依据依存剖析后果提取评估对象“羊肉串”的观点:“羊肉串咸”和“羊肉串不陈腐”,基于此来判断该评估对象的情感极性。
图3
利用依存剖析后果可获取词之间的依赖关系和关联门路,如图4所示实例。前半句中存在两条门路“打疫苗”和“在哪儿打”,后半句中存在两条门路“打疫苗”和“打在哪儿”,这些门路信息能够给类似度计算等其余工作提供更多特色。
图4
总而言之,依存剖析将句子示意为一棵树,提供了词之间的依赖关系和关联门路,其在句子序列根底上提供了更多的句子构造信息,可帮忙其余工作从句子构造角度获取所需信息。
DDParser的劣势
基于大规模优质标注数据
DDParser训练数据近百万,蕴含搜寻query、网页文本、语音输入数据等,笼罩了新闻、论坛等多种场景。从利用的角度登程,为了不便用户疾速上手,DDParser共设计了14种依存关系,并着重凸显虚词间的关系,在随机数据上LAS可达到86.9%。
基于深度学习框架,不依赖简约的特色工程
首先,DDParser采纳bilinear attention mechanism对句子语义进行示意,代替简单的特色工程模式。其次,其输出层退出了词的char级别示意,缓解粒度不同带来的成果降落,网络结构如图5所示。
图5
调用便捷
DDParser反对Python一键装置,不便用户疾速应用。
DDParser与其余开源工具的成果比照
DDParser在与训练数据同源散布的规范测试汇合上,LAS达到92.9%。同时,为了验证DDParser在中文句法分析的劣势,咱们抉择市面上关注度高的2款句法分析开源工具进行成果比照,评估形式为专家依据各工具依存关系定义人工标注。
经测试,在从搜寻、聊天、网页文本、语音输入等数据汇合中随机抽取形成的随机测试汇合上,DDParser成果达到了86.9%,成果优于同类工具,具体成果比照状况如表1所示。
表1
DDParser如何装置应用
DDParser反对pip一键装置,兼容Windows、Linux和MacOS,调用办法如下所示:
pip install ddparser
from ddparser import DDParser
ddp = DDParser()
ddp.parse("百度是一家高科技公司")
具体装置办法参见GitHub的README文档中的疾速开始。
目前,DDParser曾经开源,点击链接即可跳转GitHub开源地址理解更多技术详情,欢送大家体验,并奉献你的star和Fork!!!
如果您有任何意见或问题都能够提issue到Github,工具开发者将及时为您解答。
DDParser我的项目地址:
https://github.com/baidu/DDParser
百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。