算法、算力与数据是人工智能发展的三大基本要素。其中数据是基础,为算法提供了底层支撑。如果将算法比作一辆汽车,那么数据就是推动汽车前进的“燃料”。
目前,企业应用人工智能算法要经历研发、训练和落地三个阶段,每个阶段都需要有海量基础数据集的支撑。
在不同的阶段内,算法所处的状态不同,对于 AI 数据标注行业也有差异化的需求。因此,为机器学习算法训练提供契合所需的数据服务成为近些年人工智能行业发展的重点。
1. 研发需求
研发阶段是对新建算法的训练。在这个阶段,算法经历了从 0 到 1 的过程,对数据量级需求较大,初期多采用标准数据集产品训练,中后期则需要专业的数据定制采标服务。
对于人工智能数据服务供应商而言,为了更好地满足 AI 算法在研发阶段的需求,不仅需要提高自身数据产能与交付能力,还要提高自身定制化数据集产出能力,做到服务与需求的无缝契合。
2. 训练需求
训练阶段是通过标注数据对已有算法的准确率、鲁棒性等能力进行优化。这个阶段对数据量级的需求度有所下降,AI 企业关注的重点主要集中于数据的准确度上。
对于人工智能数据服务供应商而言,为了更好地满足 AI 算法在训练阶段的需求,需要提高数据集产出质量。通过使用高质量的标注工具,或者建立完善的内部管理、数据安全流程,将数据集质量提高到 95% 甚至更高的水平之上。
3. 落地需求
算法在经历了研发与训练阶段之后,已经较为成熟,可以从实验室走向市场。这个阶段对于数据量级的需求进一步减少,对于场景化数据集的要求变高,相应的数据集需要更加贴合实际业务场景需求。
比如在自动驾驶领域,数据场景要包括换道超车、通过路口、无红绿灯控制的无保护左转、右转,以及一些复杂的长尾场景诸如闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等等。
对于人工智能数据服务供应商而言,为了更好地满足 AI 算法在落地阶段的需求,需要提高自身定制化数据集的产出能力,同时也要提高自身服务意识,可以为算法落地提出实质性的意见与建议。
以上三个阶段涵盖了算法从诞生到落地应用的全过程,数据在其中扮演了不可或缺的角色。
对于 AI 基础数据服务供应商而言,不断完善自身产品业务能力,灵活应对客户在不同阶段对于数据集产品的差异化需求,才能做到在激烈的竞争中占得先机,形成差异化竞争优势。