关于人工智能:从小样本学习出发奔向星辰大海

本文为大家带来的演讲主题是：从小样本学习登程，奔向星辰大海。次要分为五个局部：

小样本学习办法及其重要性\
小样本学习的三个经典场景
小样本学习的应用领域
小样本学习的定义及难题
PaddleFSL助你实现小样本学习

王雅晴，2019年博士毕业于香港科技大学计算机科学及工程学系，钻研方向为机器学习，导师是倪明选传授和郭天佑传授，次要聚焦在小样本学习方向。

WAVE SUMMIT+2021深度学习开发者峰会

【科技翻新，女姓力量】论坛

自读博以来，有多篇一作成绩在ICML、NeurIPS、TheWebConf、EMNLP、TIP等顶会顶刊发表。曾撰写的小样本学习综述，是ACM Computing Surveys 2019-2021年最高引论文，也是往年的ESI高被引论文。

此外，她负责开发的小样本学习工具，在GitHub上取得1.1K+的关注，如果有感兴趣的同学，能够去看一下这个链接：https://github.com/tata1661/FSL-Mate/tree/master/PaddleFSL

王雅晴退出百度以来，深耕在小样本学习畛域，次要是对于如何疾速泛化到仅蕴含大量标注数据的新工作下面。

图1

小样本学习办法

及其重要性

三个角度解决小样本学习：

首先钻研相干的实践学习根底，比如说元学习，图学习。
其次在百度咱们还须要思考如何落地理论利用， 比如说新药发现、文本分类、用意辨认、冷启动举荐、手势辨认等等。
最初是为了帮忙大家可能疾速的上手小样本学习，实现小样本学习办法的疾速原型化，还实现了通用小样本学习工具。它是基于PaddlePaddle研发进去的，外面提供了简略易用又稳固的，小样本学习的经典办法，目前曾经蕴含了CV和NLP外面的经典利用。

说到小样本学习，就要先谈一下深度学习。自2015年以来，深度学习实现了每每冲破，AlphaGo战胜了人类围棋冠军。自从ResNet开始，机器学习模型在ImageNet这样的大数据上的标注成果，比人类标注者的误差更低。然而这些深度学习模型的胜利，其实是须要大量的标注数据，和高性能的计算设施。

比如说AlphaGo，它训练自一个蕴含3000万对奕历史的数据库，而且还能一直自我对奕。ResNet训练自ImageNet上，这样一个常见的，蕴含上百万标注图片的的大数据集。所以这也使得，在绝大多数场景外面，这两个条件“大量的标注数据”和“高性能的计算设施”是很难被满足的，这也是须要进行小样本学习的起因。

图2

小样本学习的三个经典场景

首先，介绍一下小样本学习的三个经典场景。

1.为了让人工智能更像人，具备触类旁通的能力，以图3中最右边的图片为例。给你一个独轮车，即便一个小孩，也能够轻易从一堆图片当中，辨认进去哪张也是独轮车。不论是把独轮车歪斜、翻转，还是把车杆加粗轮子变大，依然能够看出它还是独轮车。

此外，如果给你独轮车、自行车、摩托车，人类的孩童也很容易看出，不同车之间的共性。比方，都有轮子、车把手。这样的触类旁通的能力，当初的人工智能还是缺失的。所以小样本学习，始终是学术界的钻研重点，指标就是可能升高人工智能和人类智能之间的差距。

图3

2. 小样本学习的重点场景，就是为了升高数据的收集、标注、解决和计算成本。 现在，很多开发者会遇到海量且没有标签的数据，而且蕴含着大量的噪声。这也使得真正想用这些数据挖掘出一些常识、信息，是件很艰难的事件。

一般来说，须要找数据众包的人员，帮忙你标数据。然而标数据，首先它须要花很长时间，单方之间须要进行多轮的迭代。最终数据的品质，也依然会蕴含，标数据人的一些主观因素。

所以如果可能利用小样本学习，就能够把数据的收集、标注的老本，给大大降低下来。只须要收集很小的数据集，这个数据集只须要蕴含大量的、高质量的标注样本，就能够训练一个模型，来做回归预测和分类。

3. 解决一些常见的状况。 比如说危险的、波及到隐衷的、伦理的。一个比拟经典的场景，就是新药发现。在新药发现外面，心愿可能从成千上百万的化合物当中，找到合乎想要的性质的那些化合物。比如说有较低的毒性，有较高的水溶性之类的。

然而新药发现，自身是十分耗时的过程。可能要花十来年的工夫，还要花很高的费用，去招一些受试者过去进行测试。但实际上到最初，真正可能进入到实验室外面测试的样本，自身数量就很少。这使得新药发现，是一个小样本学习的问题。（如图3）

小样本学习的应用领域

因为小样本学习，真的是太常见了，所以目前各行、各业、各个领域，都呈现了小样本学习的身影。最早呈现的就是CV，也就是计算机视觉，如图片分类、物体辨认、图片切割。

起初在NLP畛域也呈现了，比如说会做一些比拟经典的关系抽取、NER这些工作。最近随着预训练模型的呈现，大家都会想去利用预训练模型。因为这些预训练模型，个别都是训练在一个大的语料库下面，外面有丰盛的语义信息和先验常识。

怎么通过微调或者构建一些模板，把它可能调到一些新的工作，即便它只蕴含大量的标注数据，这也是最近NLP畛域的钻研重点。

除了NLP畛域，还有像常识图谱，比方怎么解决日渐呈现的新的实体、新的关系，这都能够通过小样本学习的办法搞定。

图4

另外还有方才提到的，新药发现和机器人学。比如说，教机器狗让它往左走两步，或者只展现一两个手势，它就晓得我想要干什么，这都是要用到小样本学习的。

小样本学习的定义及难题

上面给出小样本学习的比拟谨严的定义，是依据1997年Tom Mitchell传授的经典机器学习定义来定义的。

什么是机器学习？对某一类工作T，如果一个计算机程序，在该工作T上与P度量的性能，随着教训E的减少而进步，就称这个计算机的程序，是在从教训E当中学习。

小样本学习，是机器学习的一种。然而比拟特地的是，它外面的教训，只有很大量的监督信号。比拟常见的监督信号，就是样本的标签。

图5

学习的现实，是心愿可能升高模型的冀望危险。也就是在将来不论有什么样的样本，都可能很好的预测进去。但这个模型的联结散布，个别是未知的，所以就要预计它。

在机器学习外面，个别是优化教训危险。然而，大家看到公式下面的教训危险，是通过训练集外面有多少样本来求的。如果是训练样本外面，只有很大量的标注数据。这个I的数量很小的话，最终只会失去十分不牢靠的，最小化的危险教训估值，使小样本学习的确是很艰难的问题。

然而，这并不是不可能被解决的，解法就是咱们将教训E当中的标注信息，和一些先验常识联合。比如说，方才提到的NLP畛域的预训练模型，把这些先验常识联合当前，就能使得工作T的学习变得可行。个别有三个角度。

通过这些先验常识，来生成更多的标注样本，用于训练。
通过先验常识，限度模型的空间复杂度。
还能够有这样一种先验常识，让它通知咱们，怎么设计一个经济的搜寻策略。比如说，在假如空间这个大H下面，应该从哪个点开始搜？往哪个方向去搜？以什么样的速度搜？这些，都会使最终失去的搜寻策略，可能更经济无效一点。只有几个样本，就可能失去很好的成果。

这些办法，都被具体总结和梳理在小样本学习的综述外面。这是ACM Computing Surveys最近两年的最高引论文，也是ESI往年的高被引论文。

PaddleFSL

助你实现小样本学习

方才介绍了，通用的小样本学习的办法。这边就介绍一下，怎么通过小样本学习工具包PaddleFSL，来实现小样本学习。

图6

PaddleFSL是一个基于飞桨的小样本学习工具包。在这个工具包外面，提供了简略、易用、稳固的经典小样本学习的办法，并反对拓展新的小样本学习办法。

此外，还提供了对立的数据集解决，使模型成果比拟更加容易。而且提供了十分详实的正文，让你能够轻易定制新的数据集。目前曾经蕴含了，CV和NLP小样本的经典利用，并且依靠飞桨的凋敝生态，一直扩大到新的畛域上。

从这里给出的PaddleFSL的整体框架图上，能够看出当初反对像图片分类、关系抽取、通用自然语言解决等一系列的工作。并蕴含了这三个工作当中，所波及到的一些经典数据集。

为了解决不同的利用，也提供不同的特色抽取器，来供大家抽取特色。

比方CNN是用来抽图片的，另外还反对所有PaddleNLP外面提供的预训练模型。此外，在模型库也提供了经典的小样本学习的办法。因为PaddleFSL是部署在飞桨下面的，因而也同样反对跨平台的部署。

这里给出了小样本图片分类后果的复现。应用PaddleFSL在ProtoNet、RelationNet、MAML、ANIL这四个办法下面，在Omniglot、Mini-ImageNet两个经典的数据集下面，都能够复现出比文章汇报更好，或者至多是匹敌的成果。

上面做一个总结，退出百度研究院以来，王雅晴次要是在做小样本学习方向。在实践钻研方面，文章当初也被ACM Computing Surveys，还有WWW录用。此外，在小样本的理论利用，特地是新药发现工作，被往年NeurIPS 2021接管为Spotlight Paper。而小样本短文本分类的文章，被EMNLP接管为长文。用意辨认和冷启动方面也都在进行推动，目前在审稿阶段。

另外对于小样本手势辨认的工作，取得了国家自然科学基金的面上我的项目反对。最初再提一下PaddleFSL，这个包当初取得了1100多的Star，以及1万多的文章浏览。

借此机会，心愿对小样本学习感兴趣的同学能够扫描下方二维码理解更多，并一起进行前沿的钻研和实际的落地。

图7

关于人工智能:从小样本学习出发奔向星辰大海

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:从小样本学习出发奔向星辰大海

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复