关于nlp:千言数据集文本相似度权威评测网易易智荣登榜首

5次阅读

共计 1795 个字符,预计需要花费 5 分钟才能阅读完成。

日前,网易数帆旗下人工智能技术与服务品牌——网易易智在 CCF 和百度联结举办的“千言数据集:文本类似度”行业测评中击败多支劲旅,荣登榜首。

文本类似度,即辨认两段文本在语义上是否类似,在自然语言解决(NLP)畛域是一个重要钻研方向,目前已大规模商用于智能客服、信息检索、新闻举荐等畛域,如已服务超 40 万企业客户的网易七鱼智能客服,背地就有这项技术的撑持。


榜单中“网易杭州研究院”为网易易智团队

常识积淀与技术积攒犯罪,网易易智文本类似度雄踞榜首

“千言数据集”系列评测是中文自然语言解决畛域的大规模赛事,其中文本类似度开源我的项目收集了来自哈尔滨工业大学的 LCQMC、BQ Corpus,以及谷歌的 PAWS-X(中文)等公开数据集,冀望对文本类似度模型成果进行综合的评估,推动文本类似度在自然语言解决畛域的利用和倒退。

据理解,这些公开数据集在相干论文的撑持下,对现有的公开文本类似度模型进行了较全面的评估,具备较高的权威性,代表了文本类似度技术钻研的最高水准。


哈尔滨工业大学(深圳)LCQMC 数据集工作示例

在本次文本类似度测评中,网易易智联合了多年技术教训积攒,和大规模预训练语言模型的使用,再加上对较量工作进行的针对性优化,获得了目前的优异成绩。

网易易智的参赛队伍示意,这次较量工作次要有 2 个难点。一个难点是 BQ Corpus 数据集是金融畛域的数据,该数据集波及到金融行业的大量常识,而通用预训练语言模型难以捕捉到特定行业的潜在常识。为此,团队 采纳半监督学习等形式,从网易外部多个业务场景中挖掘出泛金融畛域常识,进而取得金融畛域预训练语言模型,最终在该工作上较大幅度当先于其余参赛团队。

而另一个难点是 PAWS- X 数据集的品质问题,该数据来自于英文的翻译,翻译内容与实在中文有出入,尤其会对算法造成烦扰的是实体词(如人名、地名)的翻译不对立,即雷同的人名,前一个句子保留英文原文,后一个句子却音译为中文。针对这个数据特点,网易易智 利用自研的 NER(命名实体辨认)服务进行实体词的辨认与归一化,并利用自研的中文文本纠错服务纠正其中的错别字、语病之后,再进行模型训练,最终在该工作上也获得了第一。

网易易智助力七鱼机器人精准了解客户诉求

网易易智基于文本类似度等系列 NLP 技术构建了一套 智能对话零碎,服务团体外部多个业务,如严选客服、IT 征询等,并与七鱼业务联结打造智能客服机器人产品,服务团体内部客户。

以九阳股份有限公司为例,其外围诉求之一,是通过高效、精准、人性化的咨询服务保障用户的购物体验,如用户对于小家电产品性能、操作、价格、优惠活动、养护、培修等问题的征询。

为此,九阳接入了网易七鱼在线机器人,在问题匹配率可高达 90% 以上的根底上,提供更懂用户的智能服务体验。基于网易易智文本类似度算法,七鱼在线机器人实现了外围语义匹配,从而达成 BOT、FAQ 等性能。此外,通过语义匹配技术,七鱼在线机器人还实现了对知识库的智能开掘与生成。借助这些能力,七鱼在线机器人能够高效、精准地解答不同场景下的客户问题。

而在快递畛域,申通快递也接入了七鱼智能客服应答快递征询问题,这是一个与上述金融、小家电齐全不同的畛域,然而使用网易易智同样的技术原理,智能客服疾速实现了类似的成果。

网易易智 NLP 促成数字业务翻新

文本类似度技术的商业价值并不局限于智能客服畛域。据网易易智负责人介绍,文本类似度技术大类归于文本匹配,除了对话引擎里,该技术在网易外部还有更多的利用落地,如 网易云音乐中的评论智能开掘、直播 / 短视频中的歌词匹配以及常识公路业务中的视频选题类似度检测等翻新解决方案利用

而从整个技术畛域来看,作为一门让机器了解人类语言的技术,NLP 素有“人工智能皇冠上的明珠”之称,既是难以攻克的前沿课题,也对数字业务翻新具备重要的意义。除了文本类似度,网易易智也始终在摸索 NLP 技术与业务翻新的最大公约数,并获得了一些阶段性的成绩。

例如,语义解析技术在软件测试中的应用,显著晋升自动化程度、实现降本增效,这对于数字化软件品质的保障十分无利;文本纠错技术在网易新闻等文稿审校场景中大规模应用,将拼写及语法等谬误及时发现并予以纠正,大幅晋升用户浏览体验,同时升高内容生产的工作量。

将来,网易易智还将联结网易数帆旗下无数团队,摸索 NLP 在大数据系统中的利用,如反对业务人员与剖析零碎的自然语言交互,使得企业可能更好地施展大数据的价值。

正文完
 0