关于人工智能:十年数据标注缺席的独角兽与走不出的围城

2次阅读

共计 2418 个字符,预计需要花费 7 分钟才能阅读完成。

2010 年,国内人工智能热潮暴发,算法数据需要逐步旺盛,带动起数据标注行业的凋敝。

现如今,10 年已过,这是一个奥妙的节点。

通常状况下,市场会将开办工夫在十年内,估值 10 亿美元以上且还未上市的热门赛道企业称之为“独角兽”。但在国内数据标注行业,独角兽企业却常见缺席,甚至没有分毫可能呈现的征兆。

与之绝对应,在大洋彼岸,同为数据标注企业的硅谷守业公司 Scale AI,其在往年上半年实现了 3.25 亿美元的 E 轮融资,估值达到了 73 亿美元。

值得注意的是,这是这家成立仅 5 年的企业,在 4 个月内的第二次融资。上次,这家守业企业实现了 1.55 亿美元的 D 轮融资,估值 35 亿美元,远超独角兽企业的认定门槛。

那么,同为人工智能赛道上的重要玩家,国内市场与国外市场的差距到底在哪里?

缺席的独角兽

“号召”独角兽离不开两个条件:

内部广袤的倒退土壤 + 外部过硬的产品服务能力。

当一个新兴行业率先呈现独角兽企业后,以其为代表,深挖其“表面”与“外延”,可一窥行业之到底。

咱们无妨先来关注一下外部环境。

依据德勤寰球人工智能倒退白皮书统计数据显示,预计到 2025 年世界人工智能市场规模将冲破 6 万亿美元,均匀年复合增长率达 30%。

而国内人工智能产业规模也已超过 1000 亿人民币,预计到 2021 年将增长至 1800 亿元,带动相干产业规模超 10000 亿人民币。

具体到数据行业,因为目前 AI 实现形式次要以有监督深度学习形式为主,对数据有强依赖性需要,所以数据标注的市场需求随同着人工智能行业的疾速倒退而同样旺盛。

目前一个新研发的计算机视觉算法须要上万张到数十万张不等的标注图片训练,新性能的开发须要近万张图片训练,而定期优化算法也有上千张图片的需要,一个用于智慧城市的算法利用,每年都有数十万张图片的稳固需要。

具体到企业层面,主动驾驶企业 Waymo 每年在数据标注业务上投入过亿美元,国内企业数据标注业务需要也达百亿人民币规模,且放弃每年快速增长。从市场需求角度来看,国内与国外均领有广袤的能够孕育独角兽企业的肥沃土壤。

人才方面,得益于国内长期对于基础教育的器重以及对科研的一直投入,高水平的科研人才被源源不断地输送至行业内。至于数据标注行业略带“劳动密集型”的非凡属性对于国内环境而言则更不是问题,毕竟领有泛滥且便宜的劳动力始终以来就是咱们身上特有的“标签”。

能够说,国内的市场环境并无显著的劣势可言,甚至在某些畛域还稍显劣势。

但,这仍然没有号召出独角兽。

走不出的围城

既然在内部找不到答案,无妨将眼光聚焦于行业外部。

长久以来,国内对于数据标注行业的印象次要为“门槛低,技术要求不高”、“劳动密集型企业”、“行业不标准”等等。

如果评估一下这些认识,能够简略总结为“对,但也不对”。

对的一方面,国内数据标注行业长久以来的确处于粗放的状态中,行业门槛不高,轻易拉起一批人,通过简略培训,即可接我的项目、做工作,“小作坊”团队形成了数据标注行业底层供应商的少数角色。在知乎上有一个对于“如何对待 Scale AI 这样的守业公司?”的问答中,很多评论中对于数据标注行业的认知与评估均为如此。

但咱们须要深度思考一个问题:为何同为数据标注企业的 Scale AI 能够在 5 年内做到估值 73 亿美元? 要晓得,如果一家企业,没有技术壁垒且单纯依附便宜劳动力,是齐全撑不起 73 亿美元估值的。资本市场不会说谎,华尔街精英也不是慈善家,并不会对一家毫无竞争力的企业先后投资六轮,且估值给到 70 亿美元。

问题的实质在于 Scale AI 是一家科技企业,而非劳动密集型企业。

为何说 Scale AI 是一家科技类企业,这要从数据标注行业的实质说起。

根底数据标注行业的服务实质是将原始的、非结构化数据转化为可供机器学习、应用的结构化数据集。转化的过程须要人力来实现,但转写操作须要借助工具平台来实现。

在整体服务流程中,标注员能够随时被替换,然而工具平台却不能够,高质量的标注平台工具是一家数据标注企业竞争力的外围。

在人工智能行业倒退的晚期,AI 算法模型对于数据的数量以及品质要求并不高,依附简略工具即可满足大部分标注业务需要,这也是前几年国内数据标注企业如雨后春笋般大量呈现的起因:小团队依附开源工具即可实现大部分我的项目,规模稍大一些的企业在开源工具的根底上略作批改,对外标榜“纯原创工具”即可拿到融资。

这些形式在晚期确实行得通,但从久远角度来看,这种形式只是解决了标注工具有无的问题,无论是在效率还是品质上均有所欠缺。尤其随着近些年 AI 商业化对于高质量、场景化数据集的需要越来越旺盛,这种传统的形式已越来越无奈满足垂直市场的需要。

简单主动驾驶场景下的图像标注 (起源:曼孚科技 SEED 数据服务平台)

技术壁垒不高,行业竞争力有余,一方面容易导致被市场淘汰,另一方面又无奈获得资本市场的信赖,一些数据标注企业在实现初期融资后很难取得下一轮融资,最终走向慢性死亡,这正是国内尚未呈现独角兽企业的一个重要起因。

将来的护城河

依附大量劳动力实现我的项目从不是一件毫无技术含量的工作,Scale AI 同样在第三世界国家雇佣了大量标注员。

问题的关键在于如何治理并淡化“人”在我的项目中的相对影响力。

目前,国内很多企业仍处于解决“数据标注工具有无”的阶段。在这个阶段下,数据标注员扮演着外围决定性角色,标注平台工具对于数据产出效率与品质的影响力有余,反而标注员的熟练度以及素质间接决定最终交付数据的品质。

这种场景下,决定数据交付品质的外围关键点是一个又一个标注员,他们的情绪、状态都会成为影响数据品质的 X 因素。

治理人自身就是一件极具挑战性的工作,人员的流动也会带来“人走茶凉”、交付能力不稳固等状况的产生。

因而,如何用标准化、高效率的平台工具来淡化人力在标注过程的相对影响力,研发出一套贯通数据处理、项目管理和数据安全管控等各环节于一体,并且能对图像、文本、语音、视频以及 3D 点云数据做到一站式解决的平台工具,就将成为企业筑高护城河、晋升竞争力门槛的要害。

正文完
 0