最近,清华大学在 GitHub 开源了一项神器叫万词王(Want Wrong),号称是首个反对中文及跨语言查问的开源在线反向词典。
什么叫反向词典呢?一般的词典通知你某个词语的定义,而反向词典恰好相反,能够通知你哪些词语合乎你输出形容的意思。下图为万词王在线反向词典的页面截图,其中演示了反向查词的一个示例,输出“山十分高”,零碎将返回一系列模型认为表白“山十分高”意思的词语,例如“高峻”、“巍峨”等。
反向词典能够用来做什么?
- 解决“舌尖景象”(tip-of-the-tongue,又称话到嘴边说不出来),即暂时性忘词的问题
- 帮忙语言学习者学习、坚固词汇
- 改善选词性失语者患者的生存品质,该病的症状是能够辨认并形容一个物体,然而无奈记起该物体的名字
简略来说,就是当初的年轻人都会有词穷的时候,当你词穷的时候,这个工具就能够派上用场了,比方你心烦意乱拿不定主见的时候,不晓得用哪个词,你就能够将它输进去,就会失去当机立断、不意乱心慌等 100 个词语。而且词性和韵脚也是能够自定义抉择。
除此之外,它还反对汉语、英语、汉英、英汉等多种不同转化形式。
整体的零碎架构也很简略:
万词王的外围模型是之前清华大学计算机系自然语言解决实验室(THUNLP)发表在 AAAI-20 上的一篇论文提出的多通道反向词典模型:Multi-channel Reverse Dictionary Model [论文] [代码],其模型架构如下所示:
对于清华大学自然语言解决与社会人文计算实验室
清华大学计算机系自然语言解决与社会人文计算实验室(THUNLP)成立于 20 世纪 70 年代末,最后在黄昌宁传授的率领下从事中文信息处理方面的钻研工作,是国内发展自然语言解决钻研最早、深具影响力的科研单位,同时也是中国中文信息学会(全国一级学会)计算语言学业余委员会的挂靠单位。实验室学术带头人为孙茂松传授,实验室教师队伍还包含刘洋传授和刘知远副教授。实验室面向以中文为外围的自然语言解决前沿根底课题发展零碎深刻的钻研工作,钻研畛域涵盖计算语言学的外围问题以及社会计算和人文计算,近年来在 973、863、国家自然科学基金等我的项目的反对下,实验室师生在 IJCAI、AAAI、ACL、EMNLP 等国内顶级会议和期刊上发表多篇高水平学术论文,与 CMU、NUS、Google 等国内名校和企业有长期良好的单干关系,造就的优良毕业生大多到清华大学、谷歌、百度、阿里、微软等驰名高校和企业工作。
WantWords 由 THUNLP 开发和保护,我的项目领导老师为孙茂松传授和刘知远副教授,开发团队成员包含岂凡超,张磊,杨延辉。
目前,Wantwords 曾经在 GitHub 上标星 1K,累计分支 56 个(GitHub 地址:https://github.com/thunlp/Wan…)
开源最火线(ID:OpenSourceTop)猿妹 整编
整顿自:https://github.com/pwxcoo/chi…