关于人工智能:多模态语料库-书生万卷-10-详细解读-附下载地址

7次阅读

共计 5949 个字符,预计需要花费 15 分钟才能阅读完成。

国产大模型时代,高质量、开源、可信数据的重要性显而易见,但它的稀缺性也是 AI 同行引人注目的。为了扭转这一现状,OpenDataLab 联结大模型语料数据联盟构建了“书生·万卷”数据集,旨在为学术界及产业界提供更合乎支流中文价值对齐的高质量大模型多模态预训练语料。“书生·万卷”1.0 版本 8 月 14 日正式公布,跟着小编具体理解一下吧。

一、书生·万卷 1.0

书生·万卷 1.0 为书生·万卷多模态语料库的首个开源版本,蕴含 文本数据集 图文数据集 视频数据集 三局部,数据总量超过2TB。基于大模型数据联盟构建的语料库,上海 AI 实验室对其中局部数据进行细粒度荡涤、去重以及价值对齐,造成了书生·万卷 1.0,具备多元交融、精密解决、价值对齐、易用高效等四大特色。

●在多元交融方面 ,书生·万卷 1.0 蕴含 文本 图文 视频 等多模态数据,范畴笼罩科技、文学、媒体、教育、法律等多个畛域,在训练晋升模型常识含量、逻辑推理和泛化能力方面具备显著效果。

●在精密解决方面,书生·万卷 1.0 经验了语言甄别、注释抽取、格局标准化、基于规定及模型的数据过滤与荡涤、多尺度去重、数据品质评估等精细化数据处理环节,因此能更好地适配后续的模型训练需要。

●在价值对齐方面,钻研人员在书生·万卷 1.0 的构建过程中,着眼于内容与中文支流价值观的对齐,通过算法与人工评估联合的形式,晋升了语料的纯净度。

●在易用高效方面,钻研人员在书生·万卷 1.0 采纳对立格局,并提供具体的字段阐明和工具领导,使其兼顾了易用性和效率,可疾速利用于语言、多模态等大模型训练。

论文地址:https://arxiv.org/pdf/2308.10755.pdf

Github:https://github.com/opendatalab/WanJuan1.0

下载地址:https://opendatalab.com/WanJuan1.0

目前,书生·万卷 1.0 已被利用于书生·多模态、书生·浦语大模型的训练。通过对高质量语料的“消化”,书生系列模型在语义了解、常识问答、视觉了解、视觉问答等各类生成式工作体现出的优异性能。

二、书生·万卷 文本数据集 1.0

书生·万卷文本数据集 1.0 由来自网页、百科、书籍、专利、教材、考题等不同起源的荡涤后预训练语料组成,数据总量超过 5 亿个文档,数据大小超过 1TB。该语料将 html、text、pdf、epub 等多种格局的数据对立解决为字段对立的 jsonl 格局,并通过细粒度的荡涤、去重、价值对齐,造成了一份平安可信、高质量的预训练语料。

● 组成

● 样例

{
    "id": "BkORdv3xK7IA0HG7pccr",
    "content": "\\* 诗作 [222]\n 录自索菲娅·马克思的笔记本 \n#### 人生 \n 时光倏忽即逝,\n 宛如滔滔流水;\n 时光带走的所有,\n 永远都不会返回。\n 生就是死,\n 生就是一直死亡的过程;\n 人们奋斗不息,\n 却难以解脱窘迫;\n 人走完生命的路,\n 最初化为泡影;\n 他的事业和谋求 \n 埋没于时光的潮流。\n 对于人的事业,\n 精灵们投以讥嘲的眼光;\n 因为人的渴望是那样强烈,\n 而人生道路是那样狭隘迷茫;\n 人在沾沾自喜之后,\n 便感到无穷的沮丧;\n 那绵绵不尽的懊悔 \n 深藏在本人的心房;\n 人贪心谋求的指标 \n 其实非常渺小;\n 人生内容局限于此,\n 那便是充实的游戏。\n 有人自高自大,\n 其实并不平凡;\n 这种人的命运,\n 就是自我美化。\n 卡尔·马克思 \n#### 查理大帝 \n 使一个高贵心灵深受感动的所有,\n 使所有美妙心灵欢欣鼓舞的所有,\n 现在已蒙上乌黑的暗影,\n 横蛮人的手亵渎了圣洁光明。\n 巍巍格拉亚山的高尚诗人,\n 曾满怀激情把那所有讴歌,\n 激越的歌声使那所有永不磨灭,\n 诗人本人也沉迷在幸福欢畅之中。\n 高贵的狄摩西尼热情奔放,\n 曾把那所有滔滔宣讲,\n 面对三三两两的广场,\n 演讲者大胆讥嘲傲慢的菲力浦国王。\n 那所有就是高尚和美,\n 那所有笼罩着缪斯的神圣光芒,\n 那所有使缪斯的子孙冲动沉醉,\n 现在却被横蛮人无情地捣毁。\n 这时查理大帝挥动高尚魔杖,\n 召唤缪斯重见天光;\n 他使美来到了幽深的墓穴,\n 他让所有艺术重放光芒。\n 他扭转陈规陋习,\n 他施展教育的神奇力量;\n 民众得以水深火热,\n 因为牢靠的法律成了平安的保障。\n 他进行过屡次和平,\n 杀得血流成河血染沙场;\n 他雄才大略勇敢倔强,\n 但辉煌的胜利中也隐含祸殃;\n 他为凶恶的人类博得漂亮花冠,\n 这花冠比所有战功都更有重量;\n 他战败了那个时代的蒙昧,\n 这就是他取得的高尚奖赏。\n 在无穷无尽的世界历史上,\n 他将永远不会被人忘记,\n 历史将为他编织一顶桂冠,\n 这桂冠决不会吞没于时代的激浪。\n 卡尔·马克思于 1833 年 \n#### 莱茵河女神 \n** 叙事诗 **\n(见本卷第 885—889 页)\n#### 盲女 \n** 叙事诗 **\n(见本卷第 852—858 页)\n#### 两重天 \n** 乘马车赴柏林途中 **\n(见本卷第 475—478 页)\n#### 父亲诞辰献诗。1836 年 \n**(见本卷第 845—846 页)**\n#### 席勒 \n** 十四行诗两首 **\n(见本卷第 846—847 页)\n#### 歌德 \n** 十四行诗两首 **\n(见本卷第 848—849 页)\n#### 女儿 \n** 叙事诗 **\n(见本卷第 838—841 页)\n#### 悲惨的女郎 \n** 叙事诗 **\n(见本卷第 533—537 页)\n 卡·马克思写于 1833 年一大概 1837 年 \n 第一次用原文发表于《马克思恩格斯选集》1975 年历史考据版第 1 局部第 1 卷 \n 并用俄文发表于《马克思恩格斯选集》1975 年莫斯科版第 40 卷 \n 原文是德文 \n 中文依据《马克思恩格斯选集》1975 年历史考据版第 1 局部第 1 卷翻译 \n---\n** 正文:**\n[222] 马克思的这些诗作是他的姐姐索菲娅抄录在一个笔记本里的。除了马克思的诗作外,笔记本里还有其他人的诗作以及索菲娅本人和她的亲友的集体记事。马克思的这些诗作,除了《人生》和《查理大帝》外都在马克思的几本诗集和索菲娅的纪念册里呈现过。《查理大帝》一诗注明写作日期是 1833 年,可见马克思早在中学时代就已开始写诗了。《盲女》注明写作日期是 1835 年。为恭喜父亲生日而献给亨利希·马克思的诗作的写作日期应该不晚于 1836 年初。——913。"
}

● 字段
id:【字符串类型】文档的惟一 ID。
content:【字符串类型】文档的内容,格局为一般 Text 格局或 Markdown 格局。

三、书生·万卷 图文数据集 1.0

书生·万卷图文数据集 1.0 数据次要来自公开网页,经解决后造成图文交织文档。文档总量超过 2200 万个,数据大小超过 200GB(不含图片),笼罩新闻事件、人物、自然景观、社会生存等多个畛域。数据均为对立的 jsonl 格局,其中图片以 url 的模式给出,若需获取图片数据,能够采纳以下脚本:
https://github.com/opendatalab/image-downloader

● 组成

● 样例

{
    "id": "BkKuk1zxK3YAbgNSWYik",
    "img_list": [
        {
            "url": "http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/images/2021-01/21/02/1007771_wangjj_1611154300505_b.jpg",
            "sha256": "019cca88f37ae5ffe59ad48ad5c392fe64e489f08e841b6ea50c79c18f5c6ec3",
            "caption": "","width":"400","height":"266"
        }
    ],
    "content": "![](http://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/images/2021-01/21/02/1007771_wangjj_1611154300505_b.jpg)\n 奋斗百年路 启航新征程 \n 走进觉悟社当年社员散会的房间,桌子两头摆放的一盘纸条分外引人注目,周恩来“伍豪”和邓颖超“逸豪”的笔名就诞生于此。\n“为了奋斗的须要,觉悟社社员们采取抓阄的方法,以号取名。”1 月 19 日,天津觉悟社纪念馆助理馆员迟爱民讲述了 102 年前的情景:过后年纪最小的邓颖超抓到了最小数字 1 号,所以叫“逸豪”。周恩来抓到 5 号,就取名“伍豪”。\n 工夫回到 1919 年那个思潮澎湃的年代。在天津,以周恩来为代表的一批以天下为己任的先进分子,在泛滥新思潮中艰巨地摸索反动真谛。通过觉悟社的锤炼和洗礼,其次要成员成长为我国晚期的共产主义者。周恩来也在这个期间成为马克思主义的宣传者。\n 诞生:冲破封建解放摸索反动真谛 \n 觉悟社成立于“五四运动”在天津倒退到最高潮的阶段。\n 觉悟社纪念馆中的一张合影,记录下了这一张张充斥青春暮气的脸庞。他们脸色凝重,眼光动摇,这些人就是觉悟社成立之初的局部社员。\n“这个比个别学生爱国个人更加紧密的组织的成立,源于之前一次赴京请愿奋斗。”迟爱民介绍,1919 年 9 月 2 日,周恩来等天津各界联合会、学生联合会、女界爱国同志会的先进青年在返津途中,通过交换,统一认为,应该成立一个钻研新思潮,摸索反动真谛,冲破封建风俗解放,由男女同学独特组建的个人。\n1919 年 9 月 16 日,在天津东南角草场庵天津学生联合会办公室里,反动青年个人觉悟社诞生了。缺席成立会的男女各 10 名成员成为最后的社员,包含周恩来、邓颖超、马骏、刘清扬、郭隆真等。\n 周恩来执笔起草了《觉醒的宣言》。觉悟社成立后,以“革心”和“变革”的精力组织演讲,出版刊物《觉醒》,探讨钻研新思潮,很快就成为天津学生爱国运动的中坚力量。\n 引领:觉悟社成立 5 天后李大钊应邀前来 \n 在波澜起伏的奋斗中,周恩来和觉悟社社员们迫切感到,要用先进思维武装头脑。\n 觉悟社社员谌小岑曾回顾道,在觉悟社成立后第 5 天,我国最早的马克思主义者、中国共产党先驱李大钊就应邀到觉悟社座谈。李大钊听完邓颖超对觉悟社的介绍后,对觉悟社深表称许,他示意“觉悟社是男女平等、社交公开的后行”。\n 在李大钊的启发下,觉悟社成员浏览了李大钊发表在《新青年》上的《庶民的胜利》《布尔什维主义的胜利》《我的马克思主义观》等文章。还邀请徐谦、包世杰、钱玄同、刘半农等来演讲,并召开讨论会。\n 天津市委党校文史教研部副主任徐娜示意,觉悟社社员们学习、探讨中国最早的马列主义文献,并踊跃投身实际奋斗,为他们抉择信奉马克思主义、走上共产主义路线进行了最后的启蒙与疏导。\n 影响:觉悟社多人退出中国共产党 \n1920 年 1 月 29 日,在抵制日货的奋斗中,周恩来、马骏等人被捕,成立仅 4 个月的觉悟社受到沉重打击。纪念馆展厅中的两本书《警厅扣留记》和《检厅日录》,记录了青年们奋斗的艰巨和残暴。身陷囹圄的周恩来先后用 6 个早晨,向狱友介绍马克思主义学说。出狱后,编写了 3.5 万字的《警厅扣留记》和《检厅日录》。在起初旅法期间,周恩来说“我的思维是抖动于狱中”,能够说这是周恩来马克思主义世界观造成的重要期间。\n1920 年 11 月,随着周恩来、刘清扬、郭隆真等人赴法国勤工俭学,觉悟社的社员们开始星散,觉悟社的个体流动进行……\n 觉悟社存在的工夫尽管不长,但为一批年轻人建立马克思主义信奉奠定了坚实基础。徐娜示意,觉悟社作为“五四”静止暴发之后在天津影响最宽泛、作用最突出的提高学生组织,其体现出的拥护封建主义、憎恶所有盘剥和压迫的提高思维,为承受马克思主义作好了筹备。随后,远赴欧洲勤工俭学的周恩来退出中国共产党八个发起组之一的巴黎共产主义小组,成为中国共产党创建人之一,而其余的觉悟社次要社员如马骏、邓颖超、郭隆真等都退出了中国共产党,成为反动的骨干力量。"
}

(左右滑动查看)

● 字段
id:【字符串类型】文档的惟一 ID。
img_list:【数组类型】,文档内蕴含的图片列表。每张图片的信息包含网络 url, url 的 sha256, 长度和宽度。
content:【字符串类型】文档的内容,格局为一般 Text 格局或 Markdown 格局。

四、书生·万卷 视频数据集 1.0

书生·万卷视频数据集 1.0 次要来自 地方广播电视总台和上海文广团体,蕴含多种类型的节目影像,视频文件数超过 1000 个,数据大小超过 900GB。内容笼罩军事、文艺、体育、天然、真实世界、常识类、影像艺术、媒体、美食、历史纪录片、科教类等方面。

● 组成

● 样例

五、数据集限度

书生·万卷 1.0 整体采纳 CC BY 4.0 许可协定。您能够自在共享、改编该数据集,唯需遵循以下条件:

● 署名:您必须适当地表明作者、提供指向本协定的链接,以及指明是否(对原始数据集)做了批改。您能够以任何正当的形式这样做,但不能以任何形式暗示许可人批准您或您的应用。

● 没有附加限度:您不得应用法律条款或技术措施来限度别人执行许可证容许的任何操作。

残缺协定内容,请拜访 CC BY 4.0 协定全文。

特地注意事项

请留神,本数据集的某些子集可能受制于其余协定规定。在应用特定子集之前,请务必仔细阅读相干协定,确保合规应用。更为具体的协定信息,请在特定子集的相干文档或元数据中查看。

OpenDataLab 作为非盈利机构,提倡谐和敌对的开源交换环境,若在开源数据集内发现有进犯您合法权益的内容,可发送邮件至(OpenDataLab@pjlab.org.cn),邮件中请写明侵权相干事实的详细描述并向咱们提供相干的权属证实材料。咱们将于 3 个工作日内启动考察解决机制,并采取必要的措施进行处理(如下架相干数据)。但您应确保您投诉的真实性,否则采取措施后所产生的不利结果应由您独立承当。

引文

@misc{he2023wanjuan,
      title={WanJuan: A Comprehensive Multimodal Dataset for Advancing English and Chinese Large Models}, 
      author={Conghui He and Zhenjiang Jin and Chao Xu and Jiantao Qiu and Bin Wang and Wei Li and Hang Yan and Jiaqi Wang and Dahua Lin},
      year={2023},
      eprint={2308.10755},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

(左右滑动查看)

查看““书生·万卷”1.0 数据集:https://opendatalab.org.cn/WanJuan1.0

正文完
 0