注:该文章转载自 neptune.ai,为了让读者更顺畅地浏览,咱们对文章进行了局部批改,如增加了一些插图或改变了一些用词。
人工智能在 2020 年风行一时,但许多 AI 算法团队都遇到了一个瓶颈:AI 训练数据。
对于大多数人工智能,机器学习我的项目来说,领有一个宏大并且通过加工的数据集是必不可少的,但获取这些数据通常是微小的挑战。
不仅必须从事实世界中收集数据,还必须要通过人工的荡涤和标注。对于大学的 AI 研究室、小型钻研团队和晚期守业公司来说,训练数据的有余是一个重大阻碍。
这就是合成训练数据派上用场的中央,合成数据就是模仿真实世界的假数据。
对于某些 ML 应用程序,创立合成数据比采集和标注实在数据容易得多。
这次要有三个起因:
可按需生成尽可能多的数据。
可生成事实世界中难以采集到的数据(如车祸,极其顽劣天气、波及个人隐私的人脸数据等)
合成数据是自带标注信息的,并且 100% 精确。
让咱们来更具体地解释下什么是合成数据:
什么是合成数据?
机器学习的最根底条件之一是大量的 AI 训练数据。您须要的数据量能够从一万个到数十亿条数据不等,高质量的数据越多,您的 AI 模型就越准确。
对于主动驾驶汽车这样简单的 AI 我的项目,进行大规模的数据采集和数据标注是一项微小的挑战。侥幸的是,当初能够通过合成数据解决这个问题。
采集和标注的速度难以晋升是实在数据的一大弱点。
在大多数状况下,每多采集和标注一条数据,破费的工夫是成倍的,但合成数据并非如此。
使合成数据一大益处是能够批量生成。一万条训练数据?没问题。一百万条训练数据?没问题。十亿?也能够,您须要只是弱小的 GPU。
相比之下,标注十亿条实在的训练数据则难以实现。
合成数据同步
为什么应用合成数据(合成数据 VS 实在数据)
收集实在数据可能很危险。比如说,主动驾驶 AI 不能齐全依赖实在数据。从事这项技术的公司,例如 Alphabet 的 Waymo,必须进行模仿。
想一想,要训练 AI 防止车祸,您须要无关车祸的训练数据。但采集到实在车祸的大型数据集切实是太低廉和太冒险了——所以你要模仿车祸。
实在数据可能十分常见
和危险数据一样,合成数据也能够模仿真实世界的常见状况。
例如,您想让您的 AI 模型适应雾霾或者暴雪天气,合成数据能够生成足够数量的常见事件来训练 AI 模型。
往往人工智能的最大价值就是能主动地解决常见事件,但正是因为常见,在事实世界采集是难以实现的。
回到汽车的例子,车祸并不常常产生,咱们很难有机会采集这些数据。应用合成数据能够有限次地模仿车祸。
合成数据齐全由用户设计
合成数据模仿中的所有都由用户设计和操控,这是一把双刃剑。
弊病是在某些状况下,合成数据会短少真实世界中的行为或者特色,对于这种状况,必须通过迁徙学习来补充一部分实在数据。
益处是事件频率、样本分布等等都取决于用户。
合成数据领有 100% 的标注准确度
合成数据的另一个长处是完满的标注,完全避免了人工标注产生的谬误。
能够为模仿场景中的每个对象主动生成各种标注(突围框、语义宰割、关键点等),这绝对于人工标注来说能节俭大量的老本。
您不须要为标注付费,因为是主动生成的,合成数据的次要老本是后期的建模费用,然而在建模实现之后,您能够生成有限多的标注数据。
合成数据能够是多光谱的
目前,许多主动驾驶公司曾经意识到标注不可见数据具备微小的挑战性。这就是为什么他们始终是合成数据的最大支持者。
Alphabet 的 Waymo 和通用汽车的 Cruise 等公司应用合成 LiDAR 数据。因为这些数据是合成的,因而根本事实是已知的,并且数据会被主动标记。
同样,合成数据也实用于人类无奈齐全解读图像的红外或雷达计算机视觉利用。
同步合成数据
合成数据的应用领域有哪些?
合成数据有很多用处。目前,合成数据次要有两大畛域:计算机视觉和表格数据。
计算机视觉是指应用 AI 算法检测图像中的对象和模式。摄像头利用于越来越多的行业,从汽车到无人机,再到医学,等等。
合成数据与更先进的人工智能相结合,意味着计算机视觉技术才刚刚起步。
合成数据的另一个用处是在表格数据中。表格合成数据引起了钻研人员的宽泛关注。麻省理工学院的钻研人员最近公布了 Synthetic Data Vault,这是一个用于合成电子表格数据的开源工具。
衰弱和隐衷数据对于合成办法来说尤其成熟。这些数据受到隐衷法律的高度限制。合成数据能够帮忙钻研人员在不进犯人们隐衷的状况下取得他们须要的训练数据。
随着新工具和教程的公布,合成数据将可能在人工智能的倒退中施展越来越大的作用。
论断
大量数据、危险的实在数据收集和完满的标注是应用合成数据的三大起因。
如果你想查看一个实在的产品,Simerse 公布了一个收费的空幻引擎插件,能够更轻松地生成合成数据。
还有很多其余工具能够生成合成数据。无论您抉择哪种形式,合成数据都是获取训练数据的好办法,并且很可能成为下一代 AI 的一大推动力。