关于算法:NLP领域任务如何选择合适预训练模型以及选择合适的方案规范建议ERNIE模型首选

1.常见NLP工作

信息抽取：从给定文本中抽取重要的信息，比方工夫、地点、人物、事件、起因、后果、数字、日期、货币、专有名词等等。艰深说来，就是要理解谁在什么时候、什么起因、对谁、做了什么事、有什么后果。
文本生成：机器像人一样应用自然语言进行表白和写作。根据输出的不同，文本生成技术次要包含数据到文本生成和文本到文本生成。数据到文本生成是指将蕴含键值对的数据转化为自然语言文本；文本到文本生成对输出文本进行转化和解决从而产生新的文本
问答零碎：对一个自然语言表白的问题，由问答零碎给出一个精准的答案。须要对自然语言查问语句进行某种程度的语义剖析，包含实体链接、关系辨认，造成逻辑表达式，而后到知识库中查找可能的候选答案并通过一个排序机制找出最佳的答案。
对话零碎：零碎通过一系列的对话，跟用户进行聊天、答复、实现某一项工作。波及到用户用意了解、通用聊天引擎、问答引擎、对话治理等技术。此外，为了体现上下文相干，要具备多轮对话能力。
语音辨认和生成：语音辨认是将输出计算机的语音符号辨认转换成书面语示意。语音生成又称文语转换、语音合成，它是指将书面文本主动转换成对应的语音表征。
信息过滤：通过计算机系统自动识别和过滤合乎特定条件的文档信息。通常指网络有害信息的自动识别和过滤，次要用于信息安全和防护，网络内容治理等。
舆情剖析：是指收集和解决海量信息，自动化地对网络舆情进行剖析，以实现及时应答网络舆情的目标。
信息检索：对大规模的文档进行索引。可简略对文档中的词汇，赋之以不同的权重来建设索引，也可建设更加深层的索引。在查问的时候，对输出的查问表达式比方一个检索词或者一个句子进行剖析，而后在索引外面查找匹配的候选文档，再依据一个排序机制把候选文档排序，最初输入排序得分最高的文档。
机器翻译：把输出的源语言文本通过主动翻译取得另外一种语言的文本。机器翻译从最早的基于规定的办法到二十年前的基于统计的办法，再到明天的基于神经网络（编码-解码）的办法，逐步造成了一套比拟谨严的办法体系。
文本开掘：包含文本聚类、分类、情感剖析以及对开掘的信息和常识的可视化、交互式的表白界面。目前支流的技术都是基于统计机器学习的。

2.如何将业务问题形象为已失去很好解决的典型问题

2.1 明确业务的输出与输入

令输出文本用X示意，输入标签用Y示意，则有以下粗略的分类：

2.1.1 如果Y示意某一类的概率，或者是一个定长向量，向量中的每个维度是其属于各个类的概率，且概率之和为1，则可形象为文本多分类问题。

a.个别X只有一段文本。如下所示
i.如情感剖析等工作。

房间 太 小 。 其余 的 都 个别      0

b.如果X是2段文本（X1,X2），则是能够形象为句对分类问题。如下所示 i:如NLI等工作。

大家感觉她难看吗      大家感觉跑男难看吗？      0

c.如果的每个类别的概率互相独立，即各类概率之和不为1，可形象为文本多标签分类问题。如下所示
i:如用户评论分类、黄反辨认等工作。

互联网守业就如选秀 需要与服务就是价值    0 1

d. 如果X有多段非文本特色输出，如整型、浮点型类型特色。则可形象为混合特色的分类问题。如下所示
i:如CTR预估等工作。
CTR预估*

CTR预估是举荐中最外围的算法之一。相干概念：
CTR预估：对每次广告的点击状况做出预测，预测用户是点击还是不点击。
CTR预估的影响因素：比方历史点击率、广告地位、工夫、用户等
CTR预估相干介绍
举荐算法之4——CTR预估模型

2.1.2 如果X是2段文本（X1,X2），Y示意二者的类似度，可形象为文本匹配问题。如下所示

喜爱 打篮球 的 男生 喜爱 什么样 的 女生      爱 打篮球 的 男生 喜爱 什么样 的 女生      1

a.如语义类似度、类似问题匹配等工作。

b.文本聚类的问题能够通过文本类似度问题进行解决。

2.1.3 如果X有一段文本，Y是一个与X等长的序列，可形象为序列标注问题。如下所示

海 钓 比 赛 地 点 在 厦 门 与 金 门 之 间 的 海 域 。      O O O O O O O B-LOC I-LOC O B-LOC I-LOC O O O O O O

a.如分词、POS、NER、词槽开掘等工作。

2.1.4 如果X有一段文本，Y是一个不定长的文本，可形象为文本生成问题。如下所示

Rachel Pike : The science behind a climate headline      Khoa học đằng sau một tiêu đề về khí hậu

a.如机器翻译、文本摘要、题目生成等工作。

2.1.5.如果X为一段文本，Y示意文本X作为失常语句呈现的概率或者混同度，则属于语言模型工作。如下所示

<s> but some analysts remain sour on the company    but some analysts remain sour on the company <e>

a.语言模型工作的子问题是基于上（下）文X预测下（上）一个词呈现的概率Y，能够了解为一种非凡的文本分类。

2.1.6如果X是2段文本（X1,X2），别离示意注释篇章和问题，Y是篇章中的一小段文本，示意对应问题的答案，则可形象为浏览了解问题。

{    "data": [{        "title": "",        "paragraphs": [{            "context": "匍匐垫依据两头资料的不同能够分为:XPE匍匐垫、EPE匍匐垫、EVA匍匐垫、PVC匍匐垫；其中XPE匍匐垫、EPE匍匐垫都属于PE资料加保鲜膜复合而成，都是无异味的环保资料，然而XPE匍匐垫是品质较好的匍匐垫，韩国进口匍匐垫都是这种匍匐垫，而EPE匍匐垫是国内厂家为了减低老本，应用EPE(珍珠棉)作为原料生产的一款匍匐垫，该资料弹性差，易碎，开孔发泡防水性弱。EVA匍匐垫、PVC匍匐垫是用EVA或PVC作为原材料与保鲜膜复合的而成的匍匐垫，或者把图案转印在原材料上，这两款匍匐垫通常有异味，如果是图案转印的匍匐垫，油墨外露容易脱落。过后我儿子爬的时候，咱们也买了垫子，然而始终有味。最初就没用了，铺的就的薄毯子让他爬。您好，匍匐垫个别色彩鲜艳，能吸引宝宝的注意力，当宝宝刚会爬的时候，趴在下面玩，绝对比拟平安，不存在从床上摔下来的危险。对宝宝的匍匐还是很有益处的。还有就是妈妈抉择匍匐垫时能够抉择有害的PE棉，既防潮又隔冷隔热。外有要有一层塑料膜，能断绝液体进入垫子外部，而且不便荡涤。宝宝每次匍匐，肯定要记得把宝宝的手擦洁净。",            "qas": [{                "answers": [{                    "text": "XPE",                    "answer_start": 17                }],                "id": "DR-single-pre_and_next_paras-181574",                "question": "匍匐垫什么材质的好"            }]        },         ...,         ]    }]}

2.1.7 如果Y是以上多种工作的组合，则能够形象为多标签学习、多任务学习工作。

a.如实体关系抽取工作，实体抽取本属于序列标注、关系抽取本属于文本多分类。

2.2形象与拆分工作取舍教训

2.2.1优先思考简略的工作，由易到难循序渐进：

a.文本分类、文本匹配、序列标注、文本生成、浏览了解、多任务学习、强化学习、反抗学习等。

2.2.2 简单工作可拆分、化简成简略的子工作

a.如实体关系抽取工作，能够拆分为实体辨认+关系抽取的pipline进行实现。

b.如文本纠错工作，能够拆分出语言模型、统计机器翻译等多种不同子工作结构简单的pipline进行实现。

c.如排序工作，输出X为多段文本，输入Y为每段文本的排序地位，可化简成文本分类问题、文本匹配问题进行解决。

2.2.3 有监督学习工作优先于无监督学习工作

a.因为有监督学习更可控，更易于利用最前沿的研究成果。文心目前只笼罩有监督、自监督工作。

b.比方文本关键词抽取，能够有TFIDF之类的无监督解法，但成果管制较艰难，不如转换为文本分类问题。

2.2.4 能利用深度学习的工作优于不利用深度学习的工作

a.因为深度学习算法成果个别更好，而且能够利用到最前沿的预训练模型。文心目前只采纳深度学习算法。

b.如果文本聚类，能够有LDA之类的解法，但成果个别不如基于深度学习的语义类似度的文本聚类。

3. 明确业务指标与限度条件

3.1典型业务指标与限度条件

1.预测部署性能

a.典型指标：qps
性能指标：QPS、TPS、零碎吞吐量了解

2.模型成果

a.以文本分类为例，典型指标：准确率、准确率、召回率、F1值

b.该评估指标应该在训练开始之前根本确定，否则很容易优化偏。

3.硬件洽购老本

a.典型指标：钱

b.GPU远贵于CPU，V100贵于P40。

4.训练工夫老本（GPU，卡，调参，GPU利用率）

a.典型指标：每一轮训练所须要的工夫。

5.数据大小限度

a.因为标注老本较高，很多时候是数据量很少又心愿有很好的成果。

6.开发迭代老本

a.搭建环境老本

b.迭代效率：往往是最耗费工夫的局部。

3.2 可供选择的计划

抉择平台版还是工具版
抉择GPU还是CPU训练，哪一款硬件，单机还是多机，单卡还是多卡，本地还是集群
抉择怎么的预制网络
是否须要预训练模型
抉择哪一版本的预训练模型
训练数据要多少
batch_size、train_log_step、eval_step、save_model_step选多少

4.依据业务指标与限度条件抉择适合的计划

4.1预测部署性能

如果要求qps>1000

a.不适宜间接部署ERNIE预训练模型。

b.但可尝试蒸馏策略，模型成果会存在肯定损失。

如果要求qps>100

a.如果估算容许应用GPU，可尝试间接部署ERNIE相干预训练模型，举荐尝试ERNIE-tiny系列模型。

b.如果估算只容许应用CPU，可尝试CPU集群部署ERNIE相干预训练模型。

3.如果对部署性能要求不高，可随便尝试各种预训练模型。

4.性能细节请参考：模型预测与部署——预测性能

4.2 模型成果

1.一般来说，简单的网络优于简略的网络，多样的特色优于繁多的特色，有预训练模型的成果优于无预训练模型。

a.从模型复杂度来看，LSTM、GRU、CNN、BOW的复杂度与成果顺次递加，速度顺次晋升。

2.一般来说，在预训练模型中，large优于base优于tiny，新版本的模型优于旧版本的模型，针对具体任务的预训练模型优于通用版预训练模型。

3.一般来说，在不欠拟合的状况下，训练数据越多模型成果越好，标注数据的品质越好成果越好。标注数据的品质优于数据的数量。

4.不同工作适宜的网络结构并不相同，具体任务具体分析。

4.3硬件洽购老本

1.GPU远贵于CPU，罕用训练用GPU型号为V100、P40、K40，价格顺次递加。

2.具体老本可参考百度云服务器-BCC-价格计算器

3.如果短少训练资源，可通过文心平台版的收费共享队列进行训练，资源缓和，且用且珍惜。

4.4训练工夫老本

1.GPU还是CPU

a.对于非ERNIE等简单网络的模型，CPU的训练速度个别也能承受。 如果训练语料过多，数千万条以上，则倡议采纳CPU集群进行训练。b.对于ERNIE模型，尽量采纳GPU训练，CPU太慢，训练不起来。

2.怎么用好GPU

 a.GPU并行训练能晋升训练速度，倡议优先把一个节点（trainer）的卡数用完，再思考多机训练。因为单机多卡的GPU利用率更高，更快。而多机训练数据通信工夫老本较高，工夫更慢。b.大准则：GPU利用率越高训练越快。c.还有一点须要留神，多卡训练时是将不同的数据文件送给不同的卡，所以数据文件的个数要大于卡的个数。数据文件倡议拆分细一些，这能够晋升数据读取的速度。d.纯熟的同学能够尝试GPU多过程单机多卡训练、混合精度训练等办法，晋升训练速度。

3.train_log_step、eval_step、save_model_step

a.别离示意每多少步打印训练日志、每多少步评估一次验证集、每多少步保留一次模型。b.设置不当也会拖慢训练工夫c.个别倡议三者顺次放大十倍，如：10、100、1000

4.batch_size

a.设置过小容易收敛慢，设置过大容易超过显存极限间接挂掉b.如果应用ERNIE，batch_size倡议小一些，应用large版本倡议更小一些，如果输出语句并不是很长能够适当减少batch_size。c.如果不应用ERNIE，能够大一些。d.倡议应用默认配置，如果想优化能够采纳二分查找

4.5 数据大小限度

1.个别倡议标注语料越多越好。

2.非ERNIE模型个别须要几万至几百万条数据能收敛到较好的成果。

3.ERNIE模型个别须要几千至几万条数据即可收敛到较好成果。

a.个别不必ERNIE训练数百万条以上的数据，因为这会极大缩短训练工夫，增大资源耗费，而对成果的晋升并不显著。本人有足够GPU资源的用户除外。b.对于基线模型，倡议在几万条数据上验证策略无效后再尝试减少数据量。

4.如果用ERNIE模型，起码须要多少样本能力获得成果

a.对于文本分类与序列标注，一般来说每个标签笼罩的样本数至多要超过200条能力有肯定的成果。也就是说如果要进行50类多分类，就总共至多须要1万条样本。个别分类的类别越多任务越简单。

4.6开发迭代老本

1.搭建环境老本

a.如果只想训练基线模型验证成果，能够思考应用文心平台版，免去搭建环境的老本。b.如果须要一直调试、迭代优化模型，而因为平台版集群资源缓和造成迭代周期过长，能够尝试应用工具版。i:这会付出搭建环境的老本，但长痛不如短痛。

2.迭代效率

a.应用工具版本地调试胜利后再上集群训练能极大晋升迭代效率。b.应用预训练模型能晋升迭代效率。c.基线模型，倡议在几万条数据上验证策略，晋升迭代效率。验证无效后再尝试减少数据量

5. 如何高效训练NLP工作

汇总诸多NLP算法同学的倡议，咱们把高效训练NLP工作的根本流程总结如下：

1.剖析业务背景、明确任务输出与输入，将其形象为已失去很好解决的NLP典型工作。

    a.对于简单工作，须要将其拆分成比较简单的子工作    b.文心已笼罩绝大部分NLP典型工作，可参考文心ERNIE工具版-反对工作。

2.筹备好几千条格局标准的训练数据，疾速实现一个NLP模型基线。

    a.最疾速的办法是通过文心ERNIE平台版或者工具版，采纳预制网络和模型无代码训练一个模型基线。    b.本步骤只须要您晓得最根本的机器学习概念，划分好训练集、验证集、测试集进行训练即可。        c.评估训练出模型的成果，看是否满足你的业务需要，如果不满足，可思考进一步优化模型成果。

3.优化模型成果：

    a.各优化伎俩依照投入产出比排序如下      i:进一步剖析你的业务背景和需要，剖析基线模型的有余，进行更粗疏的技术选型。    ii:采纳工具版进行本地小数据调试，极大地晋升迭代效率。    iii:基于预制网络进行调参。    iv:自定义组网并进行调参。    v:基于外围接口进行高度自定义开发。    vi:间接批改文心外围源码进行开发。        b.每一种优化伎俩都都能够申请vip服务进行反对。

如何自我判断采纳哪种文心开发方式
典型的训练形式：无代码训练（不调参），无代码训练（自主调参），自定义组网训练，高阶自定义训练。

以上4类训练形式的开发自由度、上手难度、建模的危险、模型成果的下限顺次递增，性价比顺次递加。本地工具包的调试、迭代效率最高。

6总结：需把握常识

6.1 无代码调参倡议具备的相干常识

1.明确以下概念：有监督学习、标签、特色、训练集、验证集、测试集、逻辑回归、过拟合、欠拟合、激活函数、损失函数、神经网络、学习率、正则化、epoch、batch_size、分词、统计词表。

2.晓得回归与分类的区别。

3.晓得如何通过收敛曲线判断过拟合与欠拟合。

4.晓得准确率、召回率、精确度、F1值、宏均匀、微均匀的概念与区别。

5.晓得为什么训练集、验证集、测试集要保障独立同散布。

6.晓得什么是神经网络.

7.晓得什么是迁徙学习、什么是预训练模型、什么是finetune、迁徙学习的长处是什么。

6.2 自定义组网倡议具备的相干常识

1.前提是曾经把握无代码调参倡议具备的相干常识

2.明确以下概念：Sigmoid函数公式、softmax函数公式、穿插熵公式、前向流传、反向流传、SGD、Adam、词向量、embedding、dropout、BOW、CNN、RNN、GRU、LSTM、迁徙学习、

3.晓得神经网络为什么具备非线性切分能力。

4.晓得NLP中一维CNN中的卷积核大小、卷积核的个数各指代什么，时序最大池化层如何操作。

5.晓得NLP中CNN与LSTM的区别，各善于解决哪类文本问题。

6.晓得为什么BOW模型无奈辨认词语程序关系。

7.晓得为什么会梯度爆炸，以及如何解决。

参考书籍：

    a.ML特色工程和优化办法    b.周志华《机器学习》前3章    c.迁徙学习常见问题    a.CNN常见问题    b.深度学习优化办法    c.花书《深度学习》6-10章    d.《基于深度学习的自然语言解决》整本

我的项目参考链接：https://ai.baidu.com/ai-doc/E...