导语


图1. ChatGPT生成的对于智能写作的介绍

智能写作指应用自然语言解决技术来主动生成文本内容。这种技术通过剖析给定语料库,学习文本的构造和语法,而后利用这些信息来生成新的文本。智能写作能够用来疾速生成高质量的文本内容,并且能够用来实现诸如文章写作、报告生成和摘要提取等工作。

图1为咱们介绍了智能写作的基本概念,而令人意想不到的是,这一段介绍的作者竟是AI自身!这一段AI主动生成的“自我介绍”既富裕逻辑条理,又论述了正确的常识,这便是当下最炽热的AIGC技术的威力!

什么是AIGC?AIGC,即AI-generated Content,基于AI的内容生产,它是利用人工智能进行内容创作的形式,它被认为是继PGC(Professionally-generated Content)、UGC(User-generated Content)之后的新型内容创作形式。AIGC在文本、图像和音视频等多畛域都正在高速倒退,近年来诞生了许多主打AIGC的创作体验平台,用户能够输出一句话让AI合成一张与形容关联的图片,或者更为常见的是输出一句文章的形容,或仅仅是一句故事的结尾,让AI替你实现文章的续写。智能写作在咱们的日常办公中具备相当好的落地前景,例如新闻写作、诗歌春联、故事写作、广告文案、金融报告、行政文书等办公场景,这些场景都有相干智能写作产品失去利用,能够看到智能写作技术可能为包含资讯、金融、广告、政法等各行各业的从业者提供便捷且高质量的文本写作服务,帮忙人们更快地了解和剖析简单的信息,从而帮忙人们更好地做出决策,产生重要的价值。这所有生产力进步的愿景正在逐渐成为事实,背地起因是技术的倒退和晋升,下图为笔者整顿的AIGC用于智能写作的相干技术倒退脉络。

图2. 文本写作的相干重要技术

文本写作技术在很长一段时间里以RNN Seq2Seq为主,倒退缓慢,而当Transformer模型构造问世后,这一畛域的技术倒退迅速暴发,围绕着Transformer的文本写作技术喷涌而出,包含微软亚洲研究院、谷歌AI、Facebook AI、OpenAI等诸多国内出名钻研机构都纷纷投入,先后诞生了UniLM(2019)、MASS(2019)、T5(2020)、BART(2020)、GPT系列(2018-2022)等多个影响力显著的研究成果。本文将沿着这条技术倒退脉络,从传统的智能写作到现在的前沿钻研为读者做具体的论述,并为大家介绍达观数据的智能写作产品实际。

智能写作相干技术背景

01工作定义

在深刻理解相干技术之前,咱们先对文本写作工作进行一个数学上的形式化定义。文本写作工作的外围是生成一个字符串组成的序列Y = (y1,...,yi,...,yn ),其中yi∈,是一个给定的词汇表。在大多数状况下,文本写作须要以输出作为条件进行生成,输出的数据可能是文章主题,或者是文章的结尾句等等,咱们用X示意输出。基于以上定义,文本写作工作建模能够示意为P(Y|X)  = P(y1,...,yi,...,yn |X),其中P示意概率分布函数。

02数据集

写作工作公开的评测数据集,在英文上有CommenGen、ROCStories、WritingPrompts等若干数据集,而在中文上有Couplets、AdvertiseGen等若干数据集,数据集的概述见表1。

表1. 文本写作工作相干评测数据集

03评测指标

文本写作工作需要量身定制的指标可能对技术的优劣进行评测,通常写作的好坏会从四个角度进行度量:

  1. 晦涩度(fluency):生成文本的晦涩水平;
  2. 真实性(factuality):生成文本在多大程度上反映了语境;
  3. 语法(grammar):生成文本的语法正确性;
  4. 多样性(diversity):生成的文本是否具备不同的类型或款式。

通常此类工作的评测最好的形式当属人工,然而人工评测的老本微小,为此,业界设计了以下几种主动评测的量化指标,这些指标通常是量化生成文本和参考文本之间的类似度。比拟罕用的有基于词汇和基于语义的类似度度量。

3.1 基于词汇
基于词汇的度量是掂量单词或短语单元的重合度,而后聚合到整体句子级类似度,包含:

  • BLEU-n,计算生成文本和参考文本的n-gram单元的重合度,最为宽泛应用的是BLEU和BLEU-2
  • Self-BLEU,用来掂量生成文本的多样性,即在多条不同的生成文本之间计算BLEU值,Self-BLEU越小则多样性越强;
  • ROUGE-n,同样是计算生成文本和参考文本的ngram单元的重合度,不同点在于BLEU是重合n-gram数/生成文本n-gram数,而ROUGE是重合n-gram数/参考文本n-gram数,因而能够看做召回版本的BLEU;
  • Perplexity(PPL)和Reverse PPL,PPL是在参考文本上训练语言概率模型,而后用它计算生成文本的概率,概率越高则示意生成文本越晦涩;而Reverse PPL则是在生成文本上训练语言概率模型,而后反过来计算参考文本的概率,概率越高则示意生成文本越多样。

3.2 基于语义
相比基于词汇的形式,基于语义能够把字面不类似而语义类似的状况也纳入考量,是一种更贴近人工评测的形式,这其中包含:dssm,利用深层语义类似模型别离将生成文本和参考文本映射到一个低维语义示意空间,并计算生成文本向量和参考文本向量的间隔;BERTscores、BERTr、YiSi等,近年来涌现的基于预训练模型的评测办法,利用BERT的embedding示意代替n-gram,计算生成文本和参考文本的相似性。

04重要技术脉络

图3. 文本写作的相干重要技术图3列举了文本写作畛域中局部影响力较大的相干技术。在很长一段时间里文本写作是以基于RNN的Seq2Seq模型为支流技术,如图4所示,其由两个RNN网络组成,第一个RNN是编码器,第二个RNN是解码器。模型先以循环单元将输出文本编码到隐向量,后再通过循环单元程序逐字解码,程序解码时将上一单元输入和上一单元隐向量同时作为解码器的输出。RNN Seq2Seq生成的文本品质通常欠佳,时常伴有语法错误或语意不明的问题,次要起因是其逐字程序编码解码过程引起的误差传递和放大。


图4. RNN Seq2Seq模型示意图


图5. Transformer模型

随着2017年Transformer模型构造(见图5)的问世,世人惊叹于其弱小的捕获超长距离依赖的特色示意能力,并且因为Transformer能够并行处理序列的个性,训练效率相比RNN也大幅晋升,于是文本写作算法钻研投入也极速地向Transformer歪斜,随之孕育而生了一系列的预训练模型(见表2),时至今日曾经成为文本写作技术的支流前沿代表。下文将为读者重点一一论述。


表2. 文本写作的相干预训练模型概述

AE=自编码;AR=自回归;SLM=规范语言模型;CTR=受损文本重建;NSP=下一句预测;FTR=全文重建。

前沿技术介绍

当下文本写作的支流前沿技术是从不同类型、结构组件和预训练任务中衍化的若干种预训练模型。本节内容将为读者做重点介绍。

01UniLM

UniLM的全称是Unified Language Model,是2019年微软亚洲研究院提出的生成式BERT 模型,和传统的Seq2Seq不同的是,它只用了BERT,没有Decoder局部。它汇合了L2R-LM(ELMo,GPT),R2L-LM(ELMo)、BI-LM(BERT)以及Seq2Seq-LM几个其余模型训练的形式,所以叫Unified模型。

图6. UniLM模型概览

UniLM的预训练分为三个局部,Left-to-Right、Bidirectional以及Seq-to-Seq(见图6)。对于这三种形式,不同点只是Transformer的mask矩阵的改变而已:

  1. 对于Seq-to-Seq,前一句对后一句的Attention被mask,这样一来前一句只能关注到本身,但不能关注到后一句;后一句每个词向其之后的Attention被mask,只能关注到其之前的词;
  2. 对于Left-to-Right,Transformer的Attention只关注这个词自身以及后面的词,前面的词不做关注,所以mask矩阵是下三角矩阵;
  3. 对于Bidirectional,Transformer的Attention关注所有的词,并且蕴含NSP工作,和本来的BERT一样。

在UniLM的预训练过程中,三种形式各训练1/3的工夫,相比原始BERT,其增加的单向LM预训练增强了文本示意能力,而其增加的Seq-to-Seq LM预训练也使UniLM可能很好地胜任文本生成/写作的工作。02T5T5的全称是Text-to-Text Transfer Transformer,是2020年谷歌提出的模型构造,其总体思路是用Seq2Seq文本生成来解决所有上游工作:如问答、摘要、分类、翻译、匹配、续写、指代消解等。这个形式可能使所有工作共享雷同的模型,雷同的损失函数和雷同的超参数。


图7. T5思维框架

T5的模型构造是基于多层Transformer的Encoder-Decoder构造。与其余模型的次要区别是,GPT系列是仅蕴含Decoder构造的自回归语言模型(AutoRegressive LM),BERT是仅蕴含Encoder的自编码语言模型(AutoEncoder LM)。

图8. T5预训练指标示例

T5的预训练分为无监督和有监督两个局部:

1.无监督局部

无监督局部是采纳相似BERT的MLM办法,不同的是BERT是mask单个词,而T5是mask一段间断的词,也就是text span。被mask的text span只用单个mask字符替换,也就是说对于mask后的文本而言,mask的序列长度也是不可知的。而在Decoder局部,只输入被mask的text span,其它词对立用设定的<X>、<Y>、<Z>符号替换。这样做有三个益处,其一是加大了预训练难度,显然预测一个长度未知的间断text span是比预测单个词更难的工作,这也使得训练的语言模型的文本示意能力更有普适性,在品质较差的数据上的微调适应性更强;其二是对于生成工作而言输入的序列就是长度未知的,T5的预训练很好适配了这一个性;另一个益处是缩短了序列长度,使得预训练的老本得以升高。T5所采纳的这种预训练任务也被称为CTR(Corrupted Text Reconstruction,受损文本重建)。

2.有监督局部

有监督局部采纳GLUE和SuperGLUE中蕴含的机器翻译、问答、摘要、分类四大类工作。外围是Fine-tune时把这些数据集和工作合在一起作为一个工作,为了可能实现这一点它的思路是给每个工作设计了不同的prefix,与工作文本一起输出。举例说翻译工作,把英语的“That is good.”翻译为德语,那么训练时就输出“translate English to German: That is good. target: Das ist gut.”,而预测时则输出“translate English to German: That is good. target:”,模型输入预测“Das ist gut.”。其中“translate English to German:”便是为此项翻译工作增加的prefix。

03BART

BART的全称是Bidirectional and Auto-Regressive Transformers,是2020年Facebook提出的模型构造。正如其名,它是一种联合了双向编码和自回归解码构造的模型构造。


图9. BART的基本原理

BART的模型构造排汇了BERT的Bidirectional Encoder和GPT的Left-to-Right Decoder各自的特点,建设在规范的Seq2Seq Transformer model的根底之上,这使得它比BERT更适宜文本生成的场景;同时相比GPT,也多了双向上下文语境信息。


图10. BART预训练采纳的[noise]

BART的预训练任务采纳根本理念同样是还原文本中的[noise]。BART采纳的[noise]具体有:

  • Token Masking:和BERT一样,随机抉择token用[MASK]代替;
  • Token Deletion:随机删除token,模型必须确定哪些地位短少输出;
  • Text Infilling:和T5做法相似,mask一个text span,每个text span被一个[MASK]标记替换。在T5做法根底上,同时思考了当text span长度为0,此时则插入一个[MASK]标记;
  • Sentence Permutation:以句号作为宰割符,将输出分成多个句子,并随机打乱;
  • Document Rotation:随机平均地抉择一个token,以这个token为核心,旋转输出,选中的这个token作为新的结尾,此工作训练模型以辨认文档的结尾。

能够发现相比起BERT或T5,BART在Encoder端尝试了多种[noise],其起因和目标也很简略:

  1. BERT的这种简略替换导致的是Encoder端的输出携带了无关序列构造的一些信息(比方序列的长度等信息),而这些信息在文本生成工作中个别是不会提供给模型的;
  2. BART采纳更加多样的[noise],用意是毁坏掉这些无关序列构造的信息,避免模型去“依赖”这样的信息。针对各种不同的输出[noise],BART在Decoder端采纳了对立的还原模式,即输入正确的原始整句。BART所采纳的这种预训练任务也被称为FTR(Full Text Reconstruction, 全文重建)

04GPTs

GPT的全称是Generative Pre-Training, 是OpenAI在自然语言解决畛域的一项极为重要的钻研。GPT是一个循序迭代的预训练模型,其家族次要成员包含初代GPT、GPT-2、GPT-3、InstructGPT和现在煊赫一时的ChatGPT等。上面为大家逐个介绍。

4.1 GPT

图11. 规范Transformer Decoder(左);GPT Decoder(右)

初代GPT是2018年OpenAI提出的一种预训练语言模型,它的诞生相比BERT更早,它的核心思想是基于大量无标注数据进行生成式预训练学习,而后在特定工作上进行微调。正因其专一于生成式预训练,GPT的模型构造只应用了Transformer的Decoder局部,其规范构造蕴含了Masked Multi-Head Attention和Encoder-Decoder Attention(图11左)。GPT的预训练任务是SLM(Standard Language Model,规范语言模型),即基于上文(窗口)预测以后地位的词,因而要保留Mask Multi-Head Attention对词的下文遮挡,避免信息泄露。因为没有应用Encoder,所以GPT的构造中去除了Encoder-Decoder Attention(图11右)。

4.2 GPT-2
初代GPT的问题是微调上游工作不具备迁徙能力,Fine-Tuning层是不共享的,为了解决这个问题,2019年OpenAI又推出了GPT家族新的成员:GPT-2。GPT-2的学习指标是应用无监督的预训练模型做有监督的工作,与初代GPT相比,GPT-2有如下改变:1)模型构造去除Fine-Tuning层,所有工作都通过设计成正当的语句给语言模型进行预训练,训练需保障每种工作的损失函数都收敛;2)Layer Normalization的地位挪动到了每个sub-block输出的中央,在最初一个Self-Attention前面也加了一个Layer Normalization;3)采纳了修改的初始化办法,在初始化时将残差层的权重缩放到1⁄√N倍,N为残差层的数量;4)Vocabulary规模扩大到了50257,输出的上文大小由512扩大到了1024,应用更大的batch_size训练。

GPT-2的多任务训练使其领有更强的泛化能力,当然这同时也是得益于其用了多达40G的训练语料。GPT-2的最大奉献是验证了通过海量数据和大量参数训练进去的模型有迁徙到其它类别工作中而不须要额定训练的能力。

4.3 GPT-3
2020年OpenAI在GPT-2的根底上又进一步推出了GPT-3。GPT-3的做法更加简略粗犷,模型整体构造和训练指标与GPT-2根本无异,但GPT-3把模型尺寸增大到了1750亿参数量(比GPT-2大115倍),并且应用45TB数据进行训练。得益于惊人宏大的参数量,GPT-3能够在不做梯度更新的状况下应用零样本、少样本进行学习预测。

4.4 InstructGPT
超大模型的GPT-3在生成工作的成果上的确达到了空前的成果,特地是零样本和少样本场景下成为最佳,但GPT-3面临了一项新的挑战:模型的输入并不总是有用,它可能输入不实在、无害或者反映不良情绪的后果。这个景象是能够被了解的,因为预训练的工作是语言模型,预训练的指标是在输出的限定下使输入的后果为自然语言的可能性最大化,而这其中并没有“用户须要平安、有用”的要求。为了解决这个问题,2022年OpenAI基于GPT-3发表了一项重要钻研:InstructGPT,引入从人类反馈中强化学习(RLHF,Reinforcement Learning from Human Feedback)的技术。


图12. InstructGPT操作过程

InstructGPT模型上根本和GPT-3没有太大变动,次要变动的是训练策略,总体思路是标注人员对调用示例提供示范答复,而后用这些数据在模型上进行微调,从而使模型可能做出更加适合的答复。

其训练步骤分为三步:

  1. 收集示范数据,用监督训练的形式训练一个模型。从prompt数据集中采样一部分进行人工标注,而后将其用于GPT-3的Fine-Tune;
  2. 收集比照数据,训练一个回报模型。采样一批数据输出第一步Fine-Tune之后的模型,标注人员对模型的输入依照优劣进行排序,而后用这些数据训练一个回报模型;
  3. 用强化学习来优化模型的输入。应用第二步失去的回报模型来对模型的输入进行打分,将得分作为强化学习的处分,基于PPO(Proximal Policy Optimization)算法来微调生成模型。
    由此产生的 InstructGPT在遵循指令方面,远比GPT-3要好得多,同时InstructGPT也较少地凭空捏造事实,无害输入的产生出现小幅降落趋势。

4.5 ChatGPT
当初让咱们回顾本文的结尾,那个为咱们精确并有条理地解答了“什么是智能写作”的AI模型——它就是ChatGPT,OpenAI于2022年11月30日正式公布了这一项最新钻研。ChatGPT应用与InstructGPT雷同的办法,应用来自人类反馈的强化学习(RLHF)来训练该模型,改良点在于数据收集的办法(未具体公开)。

图13. ChatGPT操作过程

能够看到,ChatGPT的训练流程与InstructGPT是统一的,差别只在于InstructGPT是在GPT-3上做Fine-Tune,而ChatGPT是在GPT-3.5上做Fine-Tune(GPT3.5是OpenAI在2021年四季度训练的InstructGPT模型,在主动编写代码方面有较强的能力)。

纵观从初代GPT到ChatGPT的倒退,OpenAI证实了用超海量数据训练超大模型,这样失去的预训练语言模型就足以应答自然语言了解和自然语言生成的各种上游工作,甚至不须要微调,零/少样本一样可能应答。而在输入的平安可控性上,OpenAI给出的答案是基于人力的强化学习:雇佣了40名标注人员全职工作近2年(标注工夫官网未公开,笔者仅从GPT-3到ChatGPT大概两年半工夫距离揣测,因为强化学习须要一直迭代),为模型的输入进行标注反馈,由这些数据方可进行强化学习,领导模型优化。Transformer+超海量数据+超大模型+宏大人力+强化学习,造就了现在景象级的ChatGPT。

达观数据的智能写作利用实际

写作始终是企事业单位的重要工作内容,是公司数据资产的次要载体,是建设企业常识中台的重要基石。基于此,达观数据以NLP技术综合业务需要,全力投入研发并打造了两款智能写作产品——达观智能写作助手和达观智能文档写作。

01达观智能写作助手

达观智能写作助手是一款AI写作工具,以AI技术综合写作场景需要,为内容创作和版式调整赋能,实现全场景的精彩表白,晋升写作效率和品质,成为写作者的全能高效助手。取代传统格局刷:高自由度排版工具,批量操作效率翻倍疾速扫描全文,剖析文章构造,辨认出段落的类型,点击即可一键利用对立款式。达观智能写作助手将根据文档及段落类型,举荐规范款式,用户也能够创立自定义的款式库。


图14.达观智能写作助手智能款式排版

灵感激发:启发创作灵感对于各类丰盛场景的自在写作,当遇到写作思路瓶颈时,达观智能写作助手借助内置的大语言模型算法能力,将依据已有段落的了解,主动续写出若干种最贴合的下文,激发写作人创作的灵感。

图15.达观智能写作助手依据上文段落主动续写

海量素材:AI据意查问达观智能写作助手内置30万+条素材,涵盖公文、名人名言、古诗词等类型。反对依据用户输出的想法、需要等描述性语句,通过智能剖析搜寻最适宜的写作素材。

图16.达观智能写作助手反对据意查问

全面校对:疾速发现文章谬误,保障文档品质达观智能写作助手通过拼写查看、语法检错和语法纠错,严格校验100多种常见谬误,不放过任何过错,确保文章高品质。

图17.达观智能写作助手全面校对中文常见谬误

达观智能写作助手可能为各行各业的人员带来微小的价值:新媒体经营:公众号、小红书、新闻稿等文案创作;办公室白领:政府、企事业单位员工等均可利用达观智能写作助手疾速实现公文、报告、合同等文档书写;创意写作者:续写提醒,激发创作灵感,实现优质创作。

02达观智能文档写作
达观智能文档写作,是一款次要实现债券、基金、合同等各类业务文档的智能写作产品,实现从文档的智能审阅到智能写作的高度逾越。

开箱即用:内置多种成熟模板针对市面共性需要,达观智能文档写作产品已内置渎职调查报告、各板块招股说明书、各债券类型的债券募集说明书、发行布告、继续督导核查报告等数十种文档模板,并反对用户依据业务需要修改及自定义。

图18.达观智能文档写作预制模板库

模板自定义:高度灵便的模板配置形式达观智能文档写作可反对用户自定义写作模板,特地针对一二级市场及其他罕用合同文档写作的需要,独创了实用多数据、多表格的模板配置形式,反对模板中表格行数/列数主动判断,数据占比、变动等信息主动计算,多数据交融汇总等性能,以方便快捷地实现各类文档的便捷模板定义及写作。

图19.达观智能文档写作反对灵便的模板配置

数据起源:数据库、非结构化数据均可利用达观智能文本写作不仅反对接口对接、数据库对接的模式主动从内部数据源中获取数据进行主动填充。同时,得益于达观成熟的文本理解能力,反对从非结构化文本中提取结构化信息,包含实体字段、组合字段、元素字段(图、表、段落、题目等)进行主动录入。

以债承业务为例,零碎可依据天眼查、企查查、WIND等第三方业务零碎,及企业外部数据库,如各类合同、往期财务数据、专利证照等信息,依据用户自定义的模板信息实现文档写作工作,并依据NLP技术润色加工行文构造,生成适宜行业写作格调及格局的文档。

图20.达观智能文档写作反对丰盛的数据起源

智能写作:AI辅助非模板文档写作针对非模板文档写作需要,达观智能写作利用行业最新算法技术实现摘要主动生成、主动续写、实时联想等性能。通过机器联合人工便捷实现各类文档写作。

图21.达观智能文档写作AI辅助高度智能化

后果复核:多功能协同保障写作品质针对债承、股权、投研及法务财务等用户对数据精确性、文本准确性的需要,达观智能写作可与智能文档审核、智能文档比对性能协同。写作后果实现后可由AI对其数据逻辑性与一致性、语义标点规范性做审核。从细节动手,以人性化的交互设计升高用户人工复核老本,充沛满足用户在线晦涩编辑超长文档的需要。


图22.达观智能文档写作多功能协同,保障写作后果准确性

目前,达观智能文档写作产品已在头部券商、基金公司部署利用。将来产品将继续积攒,为用户提供数字化智能转型、建设企业常识中台的便捷化、智能化利器。

挑战与瞻望

AIGC用于智能写作获得的停顿的确令人惊叹,然而咱们也不得不意识到当下仍然存在许多挑战,包含:

  • 不足创意:智能写作的次要挑战之一是AI算法很难生成真正原创和有创意的内容。尽管人工智能能够产生语法正确且连贯的高质量内容,但它可能不足真正创造性写作所必须的人情味和洞察力;
  • 对上下文的了解无限:智能写作的另一个挑战是,AI算法可能很难齐全了解给定状况的上下文细微差别。例如,人工智能可能无奈精确解读书面内容中的语气、情感或文化差异;
  • 偏见问题:AI算法的好坏取决于它们所训练的数据,如果训练数据有偏差,人工智能的输入也会有偏差。这可能会导致道德问题,例如刻板印象和歧视的长期存在;
  • 高老本落地:开发和落地 AI 算法和零碎十分低廉,以目前获得不错停顿的技术来说广泛须要宏大的数据、算力乃至人工反对,这将对面向工业的智能写作落地造成挑战

总体而言,智能写作AIGC仍有极大的后劲尚未充分发挥,将来的钻研工作也会着重在如何克服上述的挑战。将来可能会在融入人工意见和强化学习的根底上,进一步通过设计相干维度的量化指标领导模型的优化。随着成果的日益加强,置信会有更多钻研工作投入到智能写作的小样本学习和模型压缩技术上,升高落地老本,使得智能写作产品可能服务到每个人的日常工作中。

作者:达观数据  徐雪帆

考文献[1] Lewis M, Liu Y, Goyal N, et al. Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension[J]. arXiv preprint arXiv:1910.13461, 2019.[2] Dong L, Yang N, Wang W, et al. Unified language model pre-training for natural language understanding and generation[J]. Advances in Neural Information Processing Systems, 2019, 32.[3] Li X L, Thickstun J, Gulrajani I, et al. Diffusion-LM Improves Controllable Text Generation[J]. arXiv preprint arXiv:2205.14217, 2022.[4] Li J, Tang T, Zhao W X, et al. Pretrained language models for text generation: A survey[J]. arXiv preprint arXiv:2105.10311, 2021.[5] Zhang H, Song H, Li S, et al. A survey of controllable text generation using transformer-based pre-trained language models[J]. arXiv preprint arXiv:2201.05337, 2022.[6] Liu Y, Gu J, Goyal N, et al. Multilingual denoising pre-training for neural machine translation[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 726-742.[7] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. J. Mach. Learn. Res., 2020, 21(140): 1-67.[8] Zhang Z, Han X, Zhou H, et al. CPM: A large-scale generative Chinese pre-trained language model[J]. AI Open, 2021, 2: 93-99.[9] Xue L, Constant N, Roberts A, et al. mT5: A massively multilingual pre-trained text-to-text transformer[J]. arXiv preprint arXiv:2010.11934, 2020.[10] Montesinos D M. Modern Methods for Text Generation[J]. arXiv preprint arXiv:2009.04968, 2020.[11] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.[12] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. arXiv preprint arXiv:2203.02155, 2022.[13] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.[14] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.[15] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020, 33: 1877-1901.[16] ChatGPT: Optimizing Language Models for Dialogue. https://openai.com/blog/chatgpt/