关于机器学习:2022语言与智能技术竞赛启动-联手千言发布重磅中文数据集

近年来,产学研各界在自然语言解决(NLP)畛域继续深耕,促成着人工智能技术一直向前倒退。技术的利用不仅扭转着人类的生存形式,也为产业降级提供了更多可能。

3月30日,聚焦NLP畛域的2022语言与智能技术比赛正式启动报名。本次比赛将联手“千言”数据集开源我的项目,笼罩跨模态、常识驱动、可信学习等人工智能的前沿课题,公布全新四大工作,并公布中文畛域首个搜寻常识对话数据集、首个面向理论利用场景的中文大规模段落检索数据集等多个重磅数据集。参赛选手将有机会联合技术前沿课题和理论利用场景,进行技术冲破和评测挑战,获胜队伍将分享总额超过20万元的奖金。

NLP圈顶级赛事 四大工作再降级

本比赛由中国中文信息学会(CIPS)和中国计算机学会(CCF)联结主办,百度公司、中国中文信息学会评测工作委员会和中国计算机学会自然语言解决专委会承办,已间断举办4届,成为寰球最热门的中文NLP赛事之一。

在2021年的上一届评测中,参赛队伍报名超过3500支,企业队伍占比约20%,笼罩了互联网、通信、金融、能源、航空航天等多个畛域,其中不乏腾讯、华为、阿里巴巴、字节跳动、国家电网、中国移动等知名企业;高校队伍占比约50%,笼罩了清华大学、北京大学、复旦大学、中国人民大学、慕尼黑工业大学、早稻田大学、爱丁堡大学等300多所国内外高校。评测累计收到无效提交后果1万屡次,竞争十分强烈。

据理解,2022年比赛对赛题设置进一步降级,推出四大全新工作:

段落检索——让机器从大规模语料库中找出相干段落,评估机器的语义检索及排序的能力,是自然语言解决和信息检索畛域的重要工作,也是搜索引擎外围能力之一,每日帮忙用户从超过百亿的网页文档中疾速找到后果。本工作将摸索最新的浓密段落检索办法,相较于传统字面匹配,可能大幅晋升检索系统对查问和候选段落进行语义建模的能力。

常识对话——让零碎具备利用搜索引擎常识进行凋谢域对话交互的能力,晋升对话的丰富性与常识准确性。智能音箱、虚拟人、语音助手等对话利用产品曾经融入日常生活,但在理论聊天时却经常出现“智商”有余的景象,本次比赛让机器人学会利用全网常识,为人机对话 “智商在线”的实现提供可能。

情感剖析可解释性——让情感分析模型更可解释,从合理性、虔诚性等维度评测模型的可解释性,进而推动构建更加可解释的模型。本次较量首次提出情感剖析的可解释性评测,可解释性是下一代人工智能重点“可信AI”的重要维度,可能针对性缓解神经网络模型“黑盒”特点带来的后果不可信问题,具备十分高的摸索价值。

视频语义了解——让机器对视频进行内容分析与了解。在挪动互联网、大数据的时代,视频数据出现爆发式增长。传统基于感知的视频内容分析,不足语义理解能力,本赛题提出常识加强的视频语义了解技术评测,冀望交融语言、常识、视觉、语音等相干技术和跨模态信息,深刻且全面地了解视频语义。

这四大工作赛道不仅笼罩NLP的前沿畛域,也反映了实在利用的需要,具备很高的学术和产业价值。

中文NLP畛域缺数据?联手千言,首发多个重磅数据集

推动人工智能技术提高的三大驱动力是算法、算力和数据。在这三者中,数据作为算法学习的根底,其数量和品质间接决定了算法可能达到的下限程度,好的语料能够极大推动相干畛域的技术倒退和行业提高。

而在自然语言解决畛域,英文的开源数据集百花齐放;反观中文数据集,存在开源数量少且扩散的状况。为了推动中文NLP数据和技术的倒退,“千言”开源数据集我的项目应运而生。

本次语言与智能技术比赛联手“千言”我的项目,首次公开多个最新中文数据集:来源于理论利用场景的大规模段落检索数据集DuReader_Retrival、畛域凋谢的搜寻常识对话数据集DuSINC、情感剖析可解释数据集DuExplain、大规模视频语义了解数据集DuVUnderstanding。这些数据集具备很高的技术价值,将在本次评测期间,收费凋谢给参赛选手进行技术钻研和摸索。

另外,为了全力发明最佳比赛条件,充沛激发选手的翻新灵感,百度作为本次大赛承办方为参赛选手提供了全面的技术资源和平台反对。其中,百度飞桨平台为四大比赛工作提供了基线零碎,帮忙选手疾速上手。同时,基于百度飞桨的人工智能学习与实训社区 AI Studio还提供了在线编程环境、收费GPU算力反对,突破算力枷锁,在比赛全流程为选手斩获佳绩护航。

2022语言与智能技术比赛将于3月30日正式开启报名通道,欢送进入“2022语言与智能技术比赛官网”( http://lic2022.cipsc.org.cn) 理解详情、进行报名。

百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。