关于机器学习:AI的中心到底是模型还是数据

作者：Dario Radecic，Medium 高质技术博主
编译：颂贤

图源：Brandon Lopez（Unsplash）

个别的 AI 课程会介绍很多如何通过参数优化来进步机器学习模型准确性的办法，然而这些办法通常都存在肯定的局限性。这是因为咱们经常漠视了古代机器学习一个十分重要的外围——数据。如果咱们没有解决好训练数据没，上百个小时的工夫都会被节约在调整一个低质量数据训练进去的模型上，模型的准确度很容易就会低于预期，而这和模型调优是没有太大关系的。怎样才能防止这样的问题呢？

粗略地看，其实每个 AI 我的项目都由两局部组成：模型和数据。对于代码这部分，咱们总能应用第三方库来尽可能地进步代码品质，但素来没有人通知咱们该如何充沛晋升数据的品质。这就是本文想要介绍的新思路：以数据为核心的 AI。到底什么是以数据为核心的 AI？数据的数量与品质到底哪一个优先级更高？哪里能够找到好的数据集？这些问题本文都将带大家探讨。

既然 AI 由模型和数据两局部组成，那么咱们能够想到有两种基本思路来领导咱们的机器学习：

以模型为核心: 通过改良模型来晋升体现
以数据为核心: 通过改良数据来晋升体现

其实，以数据为核心的 AI（data-centric AI）这一概念是吴恩达（Andrew Ng）的创造。吴恩达早前在油管上做了一次直播问答，专门解说了什么是以数据为核心的 AI。

他提出，最近发表的学术论文中，99% 都是在议论模型，只有 1% 是以数据为核心的。其中有一句话特地值得注意：“别再花太多心理在模型优化上了”（your model architecture is good enough）。

吴恩达何出此言呢？ResNet, VGG, EfficientNet 等学术界各路蠢才的种种智慧结晶，曾经让咱们当初可能接触到的模型架构变得十分弱小了。试图再站在这些伟人的肩膀上改善她们的工作只能达到无济于事的成果。

不过，以模型为核心的思路确实更适宜那些喜爱钻研实践的人，她们能够间接把手头的常识利用到具体场景中晋升模型性能。而且，以数据为核心的思路听起来并不讨巧，谁会喜爱每天乐此不疲地给数据做标注呢？

然而事实证明，咱们能做到的大部分性能晋升都是通过以数据为核心的办法实现的。吴恩达在他的演讲中就展现了上面这组数据：

图 1 — 基线、模型核心、数据中心性能比拟（作者制图）

即便咱们对钢铁缺点这些事件没有什么理解，模型性能在数字上的显著晋升咱们是看得见的。咱们能够看到，以模型为核心的办法对基线的改良不是零就是靠近零，而且这种办法往往须要破费从业者数百小时的工夫。

总结而言，咱们能够得出一个很重要的经验教训：不要试图和一屋子的博士比智商。在想要改良模型之前，咱们要首先确保手头上的数据品质是一流的。

要想谋求数据的数量，通常的做法就是收集尽可能多的数据，并将其悉数扔给神经网络来学习映射关系。然而，一个数据集好用并不意味着它的数据量很大。咱们能够参考数据集分享网站 Kaggle 上的数据集大小散布，图示如下：

图 2 — Kaggle 上的数据集大小散布 (图源作者)

咱们能够看到，大多数数据集并没有太多的数据。在以数据为核心的办法中，数据集的大小并不重要。当然，咱们不可能用三张图片去训练神经网络，但咱们的重点要放到品质上，而不是数量。就算咱们没有成千盈百的图片也没关系，已有的数据品质和标注准确度是至关重要的。咱们能够参考上面的例子，下图是标注人员为两个橙子的地位做出的两种不同的标注办法。

图 3 — 为物体检测工作标注边界的不同办法（图源作者）

想要让模型准确度降落很简略，只有给它灌入标注不统一的数据就能够了。如果要谋求数据的品质，咱们就必须有严格而对立的标注规定。我的项目同时有多家标注商时状况就更是如此。

不过，就算数据的品质可能保障，咱们到底须要多少数据才算够呢？这个问题比你设想的要难答复。大多数算法在其文档中会表明一个最小的举荐数据量。例如，YOLOv5 就倡议每个类别至多有 1500 张图片。我自己已经设法用比这更少的数据获得了很好的后果，然而如果有更多的训练样本，模型的准确性必定会进步。

总结而言，领有大量的数据可能锦上添花，但数据的量绝不是必需品。小数据集只有能有较高的数据品质，咱们就能够用较少的数据达到四两拨千斤的成果。

当初咱们来看一下两个可能收费获取高质量数据集的平台。

Kaggle 领有大量包含图表和图像在内的数据集。同时，Kaggle 常常会举办各种各样的机器学习比赛，其中不乏现金处分，非常适合那些想要展现本身技能的同学。不过，只管 Kaggle 曾经十分闻名，它没有针对国内的网络进行优化，下载数据集并非易事。

图 4 — Kaggle 数据集主页

兴许你没有据说过这个平台，不过它的呈现的确给算法开发者们带来了极大的帮忙，不管你身处国内还是国外。

在格物钛公开数据集平台（gas.graviti.cn/open-datasets），用户能够通过数据集的 名称联想检索、利用场景 筛选、标注类型 筛选、举荐、更新 工夫及热度筛选，轻松找到所需数据集。同时，用户 无需下载 ，即可在 数据集详情页在线查看 标注状况及标签散布，把握数据细节。

不过，如果你想下载数据集至本地，格物钛用户提供高速稳固的下载服务。将寰球资源 Host 至国内镜像，无需 VPN 拜访，满带宽极速下载。与进入海内官网下载相比，格物钛至多提速100%。

几乎是身处国内 AI 开发者的福音！

事实上，格物钛平台上的数据集还在一直增长中，用户能够自发的上传一些开源数据集，其团队也会定期退出新的高质量公开数据集。例如，出名的主动驾驶数据集 nuScenes 就在平台上有所收录，并且有十分高效的在线可视化插件一键直观查看数据集内容：

图 6 — 格物钛平台上的 nuScenes 数据集

不仅如此，当你须要某些未被上传的特定数据集时，你能够退出格物钛社区（微信或 Discord）。格物钛提供了问题与需要的反馈渠道，便于 一对一针对性回应、跟进、解决用户的需要。

以上就是对以数据为核心的 AI 的根本介绍。简略来说，以数据为核心的 AI 就是要更关怀数据的品质而不是数量。然而，高质量的数据集是很难找到的。如果你想建设优质的机器学习模型，你就肯定须要优质的数据集。对于接触数据集平台而言，Kaggle 是一个很好的开始。但如果你对计算机视觉等具体畛域感兴趣，并且想要以快捷高效的形式拜访数据集，务必试试收费好用的 格物钛公开数据集平台。

关于机器学习:AI的中心到底是模型还是数据

什么是以数据为核心的 AI？

数据要先保质还是保量？

高质量数据集哪里找？

Kaggle

格物钛公开数据集平台

结语

Just My Socks（注册教程内含优惠码）

关于机器学习:AI的中心到底是模型还是数据

什么是以数据为核心的 AI？

数据要先保质还是保量？

高质量数据集哪里找？

Kaggle

格物钛公开数据集平台

结语

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）