关于后端:人工智能超大规模预训练模型浅谈

45次阅读

共计 2404 个字符,预计需要花费 7 分钟才能阅读完成。

中国信息通信研究院近日公布了《人工智能白皮书 (2022 年)》,白皮书指出人工智能进入了新的倒退阶段,将向技术创新、工程实际、可信平安”三维”坐标来定义和牵引。算法、算力和数据被认为是人工智能倒退的三驾马车。在算法层面,超大规模预训练模型成为近两年最受关注的热点之一,一直刷新各个记录,其中百度 ERNIE3.0 模型在自然语言了解工作的综合评分(GLUE)已达 90% 以上,高居世界第一。

01 人工智能倒退历史

1941 年世界第一台计算机诞生 15 年后,香农、赫伯特 西蒙等大佬加入的”达特茅斯会议”第一次呈现了人工智能这个术语,被认为是人工智能的正式诞生。第一个人工智能的浪潮,科学家们雄心勃勃,心愿写出平凡的算法来模仿人类的思维过程。然而算力的问题导致设计再精妙的算法也算不动。在寂静十年时候,算力推动了第二波人工智能的浪潮,1982 年日本和美国都投入巨资研发第五代计算机即”人工智能计算机”,心愿一举冲破人工智能在算力上的限度。仅仅几年后,科学家们发现即便芯片依照摩尔定律的速度倒退依然满足不了算力的要求,然而没有数据输出到算法,导致第二波人工智能浪潮也寂静了。

得益于深度学习等算法的冲破、算力的一直晋升和海量数据的继续积攒,人工智能得以真正的从实验室走向产业实际。2016 年的阿尔法狗击败了围棋世界冠军李世石,代表了新一代的人工智能,依赖机器学习就能够自成巨匠,甚至能借鉴人类教训中素来没有的新棋路,深度学习实现了人工智能的一次飞跃。

02 预训练是什么

如果咱们把人工智能算法模型的能力用高中程度、大学程度类比的话,之前为了训练一个畛域的模型,咱们须要从幼儿园开始训练,直至到该畛域的程度才行,比方须要训练到大学程度。这个训练的周期会很长,同时意味着付出的老本也较高。

预训练是将大规模低成本获取的训练数据放到一起,通过预训练的办法来学习某种共性,比方达到了高中程度。如果某个畛域须要大学生程度的模型,那么就须要依据该畛域的非凡标记数据进行微调,从而产生该畛域的非凡模型,高中程度的模型即大模型。

要想训练出一个大模型,除了算法,还须要超大规模的数据与超大规模的算力,意味着须要破费十分多的钱,个别只有大厂才能够做大模型。

03 预训练显著升高了人工智能利用的门槛

以深度学习为代表的算法拉开了人工智能浪潮的尾声,在计算机视觉、智能语音、自然语言解决等畛域广泛应用,相继超过了人类辨认程度。

预训练呈现前,大规模深度学习的在自然语言解决畛域的利用门槛绝对还是比拟高,模型成果十分强依赖集体的能力。预训练模型可能极大的升高这个环节的老本和门槛。预训练模型使得模型的训练能够被复用,也就大幅度降低了训练的老本,比方咱们基于通用大模型能够低成本的扩大出金融畛域的专用模型。预训练模型是一种迁徙学习的利用,对句子每一个成员的上下文进行相干的示意,通过隐式的形式实现了语法语义常识的学习。预训练模型简直在所有的自然语言解决工作中都获得了不错的问题,同时预训练模型通过微调的形式具备很强的扩展性,每次在扩大到新场景时,只须要针对这个场景的特定标注数据进行定向的学习,便能够疾速的在这个场景进行利用,对机器学习人员的要求大大降低。

对大模型在产研实际感兴趣或者有需要的同学,能够去百度文心官网浏览更多学习材料,上手工具来开始大模型之旅。官网地址:https://wenxin.baidu.com/

04 预训练大模型为什么能够失去疾速利用

整体来说,大模型在过来两年失去了疾速的倒退,也在工业界失去了疾速的利用。尽管深度学习使得很多畛域的准确率失去很大的晋升,然而 AI 模型目前存在很多挑战,最首要的问题是模型的通用性不高,每个模型都是针对特定的某个畛域进行训练的,利用到其余畛域的时候,成果并不好。

1. 模型碎片化,大模型提供预训练计划

大模型提供了一种通用化的解决方案,通过“预训练大模型 + 上游工作微调”的形式,能够无效地从大量标记和未标记的数据中捕捉常识,极大地扩大了模型的泛化能力。例如,在 NLP 畛域,预训练大模型共享了预训工作和局部上游工作的参数,在肯定水平上解决了通用性的难题,能够被利用于翻译,问答,文本生成等自然语言工作。

2. 通过自监督学习性能,升高训练研发老本

大模型的自监督学习办法,能够缩小数据标注,在肯定水平上解决了人工标注老本高、周期长、准确度不高的问题。因为缩小了数据规范的老本,使得小样本的学习也能达到比以前更好的能力,并且模型参数规模越大,劣势越显著,防止开发人员再进行大规模的训练,应用小样本就能够训练本人所需模型,极大升高开发应用老本。

3. 大模型无望进一步冲破现有模型构造的精度局限

从深度学习倒退的历程来看,模型精度晋升,次要依赖网络在结构上的改革。随着神经网络结构设计技术,逐步成熟并趋于收敛,想要通过优化神经网络构造从而突破精度局限十分艰难。近年来,随着数据规模和模型规模的一直增大,模型精度也失去了进一步晋升,模型和数据规模的增大的确能冲破现有精度的一个局限。

05 预训练的三个发展趋势

整个预训练模型也在疾速的倒退中,整体有三个大的发展趋势。第一是模型越来越大,整个 Transformer 的层数越来越多,整体的能力也会越来越强,当然带来的训练老本也是越来越高。第二个趋势是训练的办法越来越多,蕴含各种主动的编码和多任务训练。第三个是向多模态一直演进,从最开始的只学习文本数据到联结学习文本和图像,当初能够解决文本、图像、语音等多模态数据,置信会有更多语言、更多类型数据的大模型会不断涌现,这也是实现人工智能通用化的无益摸索。

举荐浏览【技术加油站】系列

揭秘百度智能测试在测试主动生成畛域的摸索

小程序自动化测试框架原理分析

百度程序员开发避坑指南(Go 语言篇)

百度程序员开发避坑指南(3)

百度程序员开发避坑指南(挪动端篇)

百度程序员开发避坑指南(前端篇)

百度工程师教你疾速晋升研发效率小技巧

百度一线工程师浅谈突飞猛进的云原生

正文完
 0