“千言”是由百度联结中国计算机学会、中国中文信息学会独特发动的面向自然语言解决的开源数据集我的项目,旨在推动中文信息处理技术的提高。近日,在 2021 年 12 月 12 日的 WAVE SUMMIT+2021 深度学习开发者峰会上,清华大学长聘副教授黄民烈作了题为“千言:数据驱动技术提高”的演讲,回顾了千言过来一年中获得的停顿和宽泛影响力,并公布了千言的全新降级,重点聚焦大模型时代的时机和挑战。此外,还推出了“百 +”打算,邀请更多的专家学者独特建设千言,构建世界范畴内的中文 NLP 影响力。
中文开源数据集我的项目 “千言”取得宽泛关注和应用
“千言”开源数据集我的项目自 2020 年 8 月公布以来,曾经有来自清华、哈工大、中科院、美团、OPPO 等 14 家单位的数据集作者退出独特建设,目前曾经笼罩了 10 多个自然语言解决的工作,蕴含了凋谢域对话、机器浏览了解、机器同传、文本生成、情感剖析等工作。“千言”为研究者提供了一站式的数据集浏览、整顿、下载以及评测体验,受到了越来越多研究者的关注和应用,数据集下载量增长 134%,相干工作的提交次数增长 649%,增长十分显著。
此外,千言还推动了多项自然语言解决的评测,截至目前总共反对了 20 多项技术评测,蕴含了语言与智能技术比赛(LIC 2021)、CCF BDCI 多技能对话评测、NLGIW 2021 面向事实一致性的生成评测、CCF BDCI 问题匹配鲁棒性评测、NAACL 2021 机器同传评测等。其中,参加评测的人员有 57% 来自高校和科研院所,21% 来自企业,在学术界和工业界都产生了很大的影响力。开源数据集和技术评测的联动,很好的推动了相干工作的技术钻研和利用倒退。
“千言”降级:聚焦通用、可信、跨模态等大模型时代的时机和技术挑战
推动人工智能技术提高的三大驱动力是算法、算力和数据。其中,数据作为最重要的根底,其数量和品质间接决定了算法可能达到的下限程度。人工智能的历史上,优良的数据集极大地推动了畛域技术的倒退和行业的提高。近两三年,随着大模型技术的呈现和倒退,基于大模型的自然语言解决技术也获得了长足的提高。在获得提高的同时,大模型也带来了新的技术挑战和新的技术时机,包含了通用、可信、跨模态等。“千言”的降级也重点聚焦在了这三个方面。
第一,通用。通用指模型须要具备全面的、解决多个子工作的能力,同时须要在跨畛域数据上具备较好的泛化能力。“千言”推出了多技能对话工作和多状态信息抽取工作来促成模型通用性的晋升。在多技能对话工作中,冀望模型可能同时解决多种对话子工作,包含常识对话、闲聊对话、举荐对话、画像对话等;在多状态信息抽取工作上,冀望模型可能同时解决句子级关系抽取、句子级事件抽取和以及篇章级事件抽取等工作。
第二,可信。可信是指模型在利用中须要有足够的鲁棒性、较高的可解释性以及后果的一致性。其中,为了促成晋升模型的鲁棒性,“千言”公布了问题匹配鲁棒性数据集 DuQM、浏览了解鲁棒性数据集 DuReaderchecklist。为了晋升模型的可解释性,“千言”公布了情感剖析可解释数据集 DuTrust。在事实一致性方面,“千言”则推出三个生成工作来综合进行评测,别离包含了文案生成数据集 AdvertiseGen、摘要生成数据集 LCSTS、问题生成数据集 DuReaderQG。
第三,跨模态。跨模态是指随着内容承载模式的多元化,模型须要具备多模态交融(语言、图像、语音、视频等)的内容了解等能力。为此,“千言”推出了机器同传数据集 BSTC 以及跨模态情感剖析数据集 DuVideoSenti 来促成跨模态畛域的倒退。机器同传次要关注语言和语音跨模态的交互,而跨模态情感剖析次要关注语言和视频跨模态的交互。
通过了一年的倒退,千言所笼罩的工作和数据集数量显著减少,从最开始的 7 个工作,倒退到最新的 12 个工作,对应的数据集数量,也从最开始的 22 个数据集,减少到了当初 36 个数据集。
千言“百 +”打算:独特构建世界范畴内中文 NLP 的影响力 为了更好地帮忙数据集作者晋升数据集影响力和推动相干技术倒退,千言我的项目正式推出了“百 + 打算”,笼罩了“百 + 数据集作者”和“百 + 技术专家”。作为“百 + 数据集作者”,会被邀请进入千言学术委员会。千言会帮忙数据集作者公布评测,并提供飞桨开源基线、评测平台和 GPU 算力的反对,晋升数据集的影响力,推动技术的倒退。“百 + 技术专家”则是针对优良开发者和学生的认证,技术专家能够失去大量分享和交换技术计划的机会,并会受邀参加官网流动。
中文是千年华夏文化传承的载体,是中华民族的自豪和根基。在当下的人工智能时代,“千言”数据开源我的项目也心愿与学术界、产业界携手,独特推动中文信息处理技术的提高,了解语言、领有智能,扭转世界,将华夏文化的宝藏学习并传承上来。点击链接:https://www.luge.ai/#/,或扫描下方的二维码退出千言交换群来理解更多对于千言数据集的详细信息。
百度 AI 开发者社区 https://ai.baidu.com/forum?&h…,为全国各地开发者提供一个交换、分享、答疑解惑的平台,让开发者在研发路上不再“孤军奋战”,通过一直地交换与探讨找出更好的技术解决方案。如果你想尝试各种人工智能技术、开辟利用场景,赶快退出百度 AI 社区,你对 AI 的所有畅想,在这里都能够实现!
扫描下方二维码,增加小助手微信「京东卡、小度定制周边、神秘礼盒、行李箱」等更多福利你来拿~