关于人工智能:中国大模型语料数据联盟迎来9家新成员开源第二批语料数据

为晋升语料数据供应程度，推动大模型产业高质量倒退减速利用翻新与行业落地，9 月 8 日，由中国大模型语料数据联盟（以下简称“语料数据联盟”）主办的数说新语·开放日首场流动在上海人工智能实验室举办。

中国专利技术开发公司、上海仲裁委员会、上海图书馆（上海科学技术情报研究所）、上海数据交易所、上海市社会信用促成核心、上海蜜度信息技术有限公司、上海钛米机器人股份有限公司、华东师范大学出版社有限公司、上海城建城市经营（团体）有限公司 9 家新成员单位退出“中国大模型语料数据联盟”，联盟成员将独特为大模型技术深度倒退与高水平利用提供更多元的数据因素保障。

上海市经信委人工智能倒退处、信息化推动处（大数据倒退处）相干负责人缺席领导开放日流动。

上海人工智能实验室主任助理王延峰代表次要发动单位，分享了语料数据联盟以后的倒退现状与将来瞻望，同时介绍了 OpenDataLab 浦数人工智能凋谢数据平台及联盟公布的首批多模态预训练语料—— 书生·万卷 1.0。

上海人工智能实验室主任助理王延峰

新成员单位退出“中国大模型语料数据联盟”

继 8 月 14 日公布书生·万卷以来，语料数据联盟推出了第二批开源语料数据集——蜜巢·花粉 1.0。据悉，另有多个联盟成员单位也已造成语料数据开源计划，将陆续进入公布队列。

据蜜度信息首席技术官刘益东介绍， 蜜巢·花粉 1.0 以互联网媒体数据为主，截止目前，总量已超 1 亿条。该数据集目前已被利用于蜜度系列大模型训练，在政务及媒体等垂直畛域提供常识问答与内容生成、剖析报告主动生成、文稿内容审校与润色改写等各类智能生成式服务。
流动中，上海数据交易所市场倒退部副总经理章健及磅礴新闻网 CTO 孙挥别离做主题演讲，分享各自在强化大模型语料数据高质量供应方面的翻新实际。

将来，语料数据联盟将继续施展好“朋友圈”作用，凝聚各方资源，施展成员单位劣势，集思广益，独特推动大模型语料数据高水平供应，为大模型倒退做好数据撑持。

由上海人工智能实验室联结地方广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业团体、上海文广团体等 10 家单位联结发动。为应答大模型倒退对高质量、大规模、平安可信语料数据资源的需要，保障大模型科研攻关及相干产业生态倒退，大模型语料数据联盟于 2023 年 7 月 6 日世界人工智能大会开幕式上发表成立，旨在通过链接模型训练、数据供应、学术研究、第三方服务等多方面机构，联结打造多常识、多模态、标准化的高质量语料数据，摸索造成基于奉献、可继续运行的激励机制，打造国际化、开放型的大模型语料数据生态圈。

下载语料数据及获取大模型语料数据联盟更多信息，请登录：
https://opendatalab.com/