共计 3796 个字符,预计需要花费 10 分钟才能阅读完成。
本文为大家带来的演讲主题是:从小样本学习登程,奔向星辰大海。次要分为五个局部:
- 小样本学习办法及其重要性 \
- 小样本学习的三个经典场景
- 小样本学习的应用领域
- 小样本学习的定义及难题
- PaddleFSL 助你实现小样本学习
王雅晴,2019 年博士毕业于香港科技大学计算机科学及工程学系,钻研方向为机器学习,导师是倪明选传授和郭天佑传授,次要聚焦在小样本学习方向。
WAVE SUMMIT+2021 深度学习开发者峰会
【科技翻新,女姓力量】论坛
自读博以来,有多篇一作成绩在 ICML、NeurIPS、TheWebConf、EMNLP、TIP 等顶会顶刊发表。曾撰写的小样本学习综述,是 ACM Computing Surveys 2019-2021 年最高引论文,也是往年的 ESI 高被引论文。
此外,她负责开发的小样本学习工具,在 GitHub 上取得 1.1K+ 的关注,如果有感兴趣的同学,能够去看一下这个链接:https://github.com/tata1661/FSL-Mate/tree/master/PaddleFSL
王雅晴退出百度以来,深耕在小样本学习畛域,次要是对于如何疾速泛化到仅蕴含大量标注数据的新工作下面。
图 1
小样本学习办法
及其重要性
三个角度解决小样本学习:
- 首先 钻研相干的实践学习根底,比如说元学习,图学习。
- 其次在百度咱们还须要思考 如何落地理论利用, 比如说新药发现、文本分类、用意辨认、冷启动举荐、手势辨认等等。
- 最初是为了帮忙大家可能 疾速的上手小样本学习 , 实现小样本学习办法的疾速原型化,还实现了通用小样本学习工具。它是基于 PaddlePaddle 研发进去的,外面提供了简略易用又稳固的,小样本学习的经典办法,目前曾经蕴含了 CV 和 NLP 外面的经典利用。
说到小样本学习,就要先谈一下深度学习。自 2015 年以来,深度学习实现了每每冲破,AlphaGo 战胜了人类围棋冠军。自从 ResNet 开始,机器学习模型在 ImageNet 这样的大数据上的标注成果,比人类标注者的误差更低。然而这些深度学习模型的胜利,其实是须要大量的标注数据,和高性能的计算设施。
比如说 AlphaGo,它训练自一个蕴含 3000 万对奕历史的数据库,而且还能一直自我对奕。ResNet 训练自 ImageNet 上,这样一个常见的,蕴含上百万标注图片的的大数据集。所以这也使得,在绝大多数场景外面,这两个条件“大量的标注数据”和“高性能的计算设施”是很难被满足的,这也是须要进行小样本学习的起因。
图 2
小样本学习的三个经典场景
首先,介绍一下小样本学习的三个经典场景。
1. 为了让人工智能更像人,具备触类旁通的能力,以图 3 中最右边的图片为例。给你一个独轮车,即便一个小孩,也能够轻易从一堆图片当中,辨认进去哪张也是独轮车。不论是把独轮车歪斜、翻转,还是把车杆加粗轮子变大,依然能够看出它还是独轮车。
此外,如果给你独轮车、自行车、摩托车,人类的孩童也很容易看出,不同车之间的共性。比方,都有轮子、车把手。这样的触类旁通的能力,当初的人工智能还是缺失的。所以小样本学习,始终是学术界的钻研重点,指标就是可能升高人工智能和人类智能之间的差距。
图 3
2. 小样本学习的重点场景,就是为了升高数据的收集、标注、解决和计算成本。 现在,很多开发者会遇到海量且没有标签的数据,而且蕴含着大量的噪声。这也使得真正想用这些数据挖掘出一些常识、信息,是件很艰难的事件。
一般来说,须要找数据众包的人员,帮忙你标数据。然而标数据,首先它须要花很长时间,单方之间须要进行多轮的迭代。最终数据的品质,也依然会蕴含,标数据人的一些主观因素。
所以如果可能利用小样本学习,就能够把数据的收集、标注的老本,给大大降低下来。只须要收集很小的数据集,这个数据集只须要蕴含大量的、高质量的标注样本,就能够训练一个模型,来做回归预测和分类。
3. 解决一些常见的状况。 比如说危险的、波及到隐衷的、伦理的。一个比拟经典的场景,就是新药发现。在新药发现外面,心愿可能从成千上百万的化合物当中,找到合乎想要的性质的那些化合物。比如说有较低的毒性,有较高的水溶性之类的。
然而新药发现,自身是十分耗时的过程。可能要花十来年的工夫,还要花很高的费用,去招一些受试者过去进行测试。但实际上到最初,真正可能进入到实验室外面测试的样本,自身数量就很少。这使得新药发现,是一个小样本学习的问题。(如图 3)
小样本学习的应用领域
因为小样本学习,真的是太常见了,所以目前各行、各业、各个领域,都呈现了小样本学习的身影。最早呈现的就是 CV,也就是计算机视觉,如图片分类、物体辨认、图片切割。
起初在 NLP 畛域也呈现了,比如说会做一些比拟经典的关系抽取、NER 这些工作。最近随着预训练模型的呈现,大家都会想去利用预训练模型。因为这些预训练模型,个别都是训练在一个大的语料库下面,外面有丰盛的语义信息和先验常识。
怎么通过微调或者构建一些模板,把它可能调到一些新的工作,即便它只蕴含大量的标注数据,这也是最近 NLP 畛域的钻研重点。
除了 NLP 畛域,还有像常识图谱,比方怎么解决日渐呈现的新的实体、新的关系,这都能够通过小样本学习的办法搞定。
图 4
另外还有方才提到的,新药发现和机器人学。比如说,教机器狗让它往左走两步,或者只展现一两个手势,它就晓得我想要干什么,这都是要用到小样本学习的。
小样本学习的定义及难题
上面给出小样本学习的比拟谨严的定义,是依据 1997 年 Tom Mitchell 传授的经典机器学习定义来定义的。
什么是机器学习?对某一类工作 T,如果一个计算机程序,在该工作 T 上与 P 度量的性能,随着教训 E 的减少而进步,就称这个计算机的程序,是在从教训 E 当中学习。
小样本学习,是机器学习的一种。然而比拟特地的是,它外面的教训,只有很大量的监督信号。比拟常见的监督信号,就是样本的标签。
图 5
学习的现实,是心愿可能升高模型的冀望危险。也就是在将来不论有什么样的样本,都可能很好的预测进去。但这个模型的联结散布,个别是未知的,所以就要预计它。
在机器学习外面,个别是优化教训危险。然而,大家看到公式下面的教训危险,是通过训练集外面有多少样本来求的。如果是训练样本外面,只有很大量的标注数据。这个 I 的数量很小的话,最终只会失去十分不牢靠的,最小化的危险教训估值,使小样本学习的确是很艰难的问题。
然而,这并不是不可能被解决的,解法就是咱们将教训 E 当中的标注信息,和一些先验常识联合。比如说,方才提到的 NLP 畛域的预训练模型,把这些先验常识联合当前,就能使得工作 T 的学习变得可行。个别有三个角度。
- 通过这些先验常识,来生成更多的标注样本,用于训练。
- 通过先验常识,限度模型的空间复杂度。
- 还能够有这样一种先验常识,让它通知咱们,怎么设计一个经济的搜寻策略。比如说,在假如空间这个大 H 下面,应该从哪个点开始搜?往哪个方向去搜?以什么样的速度搜?这些,都会使最终失去的搜寻策略,可能更经济无效一点。只有几个样本,就可能失去很好的成果。
这些办法,都被具体总结和梳理在小样本学习的综述外面。这是 ACM Computing Surveys 最近两年的最高引论文,也是 ESI 往年的高被引论文。
PaddleFSL
助你实现小样本学习
方才介绍了,通用的小样本学习的办法。这边就介绍一下,怎么通过小样本学习工具包 PaddleFSL,来实现小样本学习。
图 6
PaddleFSL 是一个基于飞桨的小样本学习工具包。在这个工具包外面,提供了简略、易用、稳固的经典小样本学习的办法,并反对拓展新的小样本学习办法。
此外,还提供了对立的数据集解决,使模型成果比拟更加容易。而且提供了十分详实的正文,让你能够轻易定制新的数据集。目前曾经蕴含了,CV 和 NLP 小样本的经典利用,并且依靠飞桨的凋敝生态,一直扩大到新的畛域上。
从这里给出的 PaddleFSL 的整体框架图上,能够看出当初反对像图片分类、关系抽取、通用自然语言解决等一系列的工作。并蕴含了这三个工作当中,所波及到的一些经典数据集。
为了解决不同的利用,也提供不同的特色抽取器,来供大家抽取特色。
比方 CNN 是用来抽图片的,另外还反对所有 PaddleNLP 外面提供的预训练模型。此外,在模型库也提供了经典的小样本学习的办法。因为 PaddleFSL 是部署在飞桨下面的,因而也同样反对跨平台的部署。
这里给出了小样本图片分类后果的复现。应用 PaddleFSL 在 ProtoNet、RelationNet、MAML、ANIL 这四个办法下面,在 Omniglot、Mini-ImageNet 两个经典的数据集下面,都能够复现出比文章汇报更好,或者至多是匹敌的成果。
上面做一个总结,退出百度研究院以来,王雅晴次要是在做小样本学习方向。在实践钻研方面,文章当初也被 ACM Computing Surveys,还有 WWW 录用。此外,在小样本的理论利用,特地是新药发现工作,被往年 NeurIPS 2021 接管为 Spotlight Paper。而小样本短文本分类的文章,被 EMNLP 接管为长文。用意辨认和冷启动方面也都在进行推动,目前在审稿阶段。
另外对于小样本手势辨认的工作,取得了国家自然科学基金的面上我的项目反对。最初再提一下 PaddleFSL,这个包当初取得了 1100 多的 Star,以及 1 万多的文章浏览。
借此机会,心愿对小样本学习感兴趣的同学能够扫描下方二维码理解更多,并一起进行前沿的钻研和实际的落地。
图 7