关于paddle:2023语言与智能技术竞赛开辟双赛道寻找全民测评官探索AI多模态能力

开年以来，人工智能大语言模型（LLM）掀起新一轮寰球科技比赛，寰球科技巨头打响“百模大战”。当大语言模型正粗浅扭转人类生产生存形式时，该如何进一步开释其潜能，成为业界关注的问题，也成为了 2023 语言与智能技术比赛命题的终点。

5 月 17 日，2023 语言与智能技术比赛正式启动，该大赛由中国计算机学会（CCF）和中国中文信息学会（CIPS）联结主办，百度公司、中国计算机学会自然语言解决专委会和中国中文信息学会评测工作委员会承办。本届大赛设置“大语言模型能力评估”和“视频语义了解”两大赛道，立足事实难题，挖掘翻新人才，助推技术倒退。

语言与智能技术比赛自 2018 年开始，已间断举办 5 届，凭借面向实在利用场景的工作设计和源自实在场景的数据集，取得产学研各界关注，成为寰球最权威、最热门的中文自然语言解决赛事之一。

历届比赛先后组织了浏览了解、人机对话、语义解析、信息抽取等评测工作，笼罩自然语言解决和人工智能畛域的重要前沿课题，对于推动相干技术钻研及智能搜寻、智能举荐、智能交互等人工智能利用倒退具备重要意义。每届赛题如同英雄帖，吸引超过 2000 支队伍前来“揭榜”，其中 80%选手来自寰球多所顶尖高校和
科技企业，笼罩金融、互联网、传媒、通信、工程机械、能源、生物等多个行业。

以后，大语言模型作为“大数据 + 大算力 + 强算法”的产物，基于万亿级数据集预训练后能应答多样化需要，被视为 AI 迈向 AGI（通用人工智能）的里程碑技术。本届比赛紧跟技术趋势，设置“大语言模型能力评估”和“视频语义了解”两大赛道，旨在携手寰球翻新人才，为推动语言与智能畛域技术倒退和利用贡献力量。

不同于往届比赛次要面向业余 AI 开发者，本届大赛第一条赛道“大语言模型能力评估”向 所有用户 收回邀请。该赛道心愿选手从底层能力（生成、逻辑等）、专项能力（创作、问答等）以及在实在场景的利用能力等维度登程，制订评估计划和数据示例，为大语言模型构建能力评估体系（请参考下方示例）。

评估体系示例

这一赛题的设置让个人用户和中小规模开发团队尤为振奋。一方面，大语言模型扎推问世，呈现同质化等问题，亟待提出全面、无效的评估办法；另一方面，模型参数量已激增至万亿级，单次训练老本昂扬，仅多数头部企业有能力承当。而通过加入语言与智能技术比赛，选手只需从本身对大模型的了解登程，建设逻辑顺畅的评估维度和评估规范，就能低成本地参加技术改革。作为承办方，百度将为所有选手提供全新一代常识加强大语言模型文心一言的邀请码，帮忙选手更好地建设大模型评估体系。

这也意味着，第一条赛道简直“零门槛”。不限年龄、不限业余，无需代码根底，只有有理有据就能负责“全民测评官”，帮忙人们理解大语言模型在不同场景的适应性和局限性，从而打造得更加平安、可控。

第二条赛道“视频语义了解”则重点面向 业余 AI 开发者，评测工作以互联网视频为输出，需在感知内容分析（如人脸识别、OCR 辨认、语音辨认等）的根底上，通过交融常识、NLP、语音等多模信息，联合常识图谱计算与推理，为视频生成多常识维度的语义标签。

这一工作，是大赛对 AI 多模态能力及 AGI 的一步初探。多模态被业界认为是大语言模型下一步的倒退方向，和人类基于视觉零碎进行大部分信息获取相似，AI 也正从文本、语音、视觉等单模态智能向多种模态交融的 AGI 方向倒退，GPT-4 的识图能力和文心一言的文生图能力均是多模态能力的体现。

参加第二条赛道的选手，将取得由百度提供的基于飞桨平台的基线零碎，以便疾速上手，达成最佳比赛条件。同时，选手还能够基于百度飞桨的人工智能学习与实训社区 AI Studio，应用在线编程环境，获取收费 GPU 算力反对，突破算力枷锁，一直深入对 AI 多模态能力的认知。

“百模大战”现下正酣，AGI 不再边远。正如百度 CTO 王海峰所说，“大模型的通用性越来越强，AGI 在肯定水平上曾经实现，但 AI 为人类带来价值才是咱们致力的方向”。本届比赛两大赛道，既联结 AI 时代最宽泛的参与者，构建全面、迷信的评估体系，也激励业余 AI 开发者动摇地朝着下一个技术高点前行，让 AI 服务于人类更美妙的生存和社会的倒退。同时，百度也通过比赛、校企单干等形式，继续推动“5 年 500 万 AI 人才”打算，为国家策略科技力量建设继续奉献。

即日起，2023 语言与智能技术比赛报名通道已凋谢，详情返回大赛官网查看。大赛还筹备了丰富的赛事奖池，获奖团队将有机会在 2023 语言与智能高峰论坛与泛滥领域专家介绍作品。

官网链接

http://lic2023.ccf.org.cn/

关于paddle:2023语言与智能技术竞赛开辟双赛道寻找全民测评官探索AI多模态能力

紧跟技术趋势命题，寰球人才集结“揭榜”

寻找“全民测评官”，构建大模型能力评估体系

摸索多模态能力“天花板”，强化视频语义了解