关于人工智能:数据标注员时代的一粒沙落到每个人身上都是一座山丨曼孚科技

38次阅读

共计 3812 个字符,预计需要花费 10 分钟才能阅读完成。

​深夜 11 点,赵明在提交最初一个数据包后,终于长舒了一口气。

作为一名一般的数据标注员,这是他一周以来第一次早于午夜 12 前点上班。

十几天以前,他所在的团队接到了一个“大我的项目”:在发了无数封邮件、打了无数次电话后,某甲方终于许可分拨给他们团队一个新工作。

时至今日,赵明仍然清晰地记得过后老板脸上那拆穿不住的喜悦表情以及冲动的呐喊声。毕竟,他所在的这个小团队曾经有半个月没有动工了,这是他们重振旗鼓的一个好机会。

然而,这份喜悦却并没有维持多久,当大家看到工作需要详情后,所有人都缄默了。

这次争取失去的工作是一份图像语义宰割类的我的项目,类似的我的项目赵明所在的团队不是没有做过,但这次的数据场景要简单的多,而且最重要的一点是,甲方更换了标注平台,这意味着他们要额定腾出肯定工夫去学习应用新平台,我的项目周期被变相压缩了。

从风险管理的角度考量,接下这个我的项目盈利的概率微不足道,然而老板最终还是拍板决定尝试一下。对此,团队内很多人示意有些不了解,不过赵明却很分明背地的起因。

对于他所在的这个只有十几个人的小团队而言,一个月不接工作即意味着团队遣散。这个我的项目尽管难度很高,但曾经是他们在短时间内能够拿到的最合适我的项目了,纵然有危险与难度,但无论如何也要致力搏一下,于是就呈现了文章结尾的一幕。

而赵明团队所正在经验的场景,其实也是当下很多数据标注小团队内的真实写照。

01

赵明第一次接触到“数据标注”这个陈腐词还是在 2018 年,彼时也正是国内数据标注行业起步昌盛的阶段。

“初中毕业后,我就始终在外打工,长时间在外流浪让我感到毫无归属感,于是 2018 年我回到老家,想在老家物色一份新工作,也正是在那段时间,我接触到了数据标注这个行业。”

赵明回忆起刚接触数据标注行业时的场景:“那个时候,老家曾经有很多人从事这个行业了,大的团队上百人,小的团队只有几个人。

我过后还很纳闷,心想人工智能这么高端的行业咱们普通人也能做吗,起初通过他人介绍才发现,数据标注这份职业门槛较低,属于重复性劳动,通过简略的培训就能够上手,于是我就进入了这个行业中。”

“刚开始时候,我的项目都比较简单,以图像类的我的项目为主,描点拉框的类型居多。尽管咱们这里大大小小的团队很多,然而每个团队都能拿到一定量的工作,作为标注员日常支出也较为可观,尽管不如外出打工赚得多,但胜在稳固离家近。”

“不过,这种好日子很快就到头了。2019 年开始,我的项目起源开始不稳固起来,而且工作的类型、场景也越来越简单。

传统的拉框、描点等简略类我的项目利润空间越来越少,简单标注类型比方全景语义宰割、3D 点云标注类型开始多起来,但因为这类标注类型对咱们标注员的能力要求比拟高,学习把握周期也很久,所以很多团队都遣散了,咱们标注员的支出也开始不稳固起来,感觉行业进入了一个瓶颈期。”

02

赵明的经验其实也正是近些年数据标注行业倒退的一个缩影。

作为人工智能行业的根底,数据与算法、算力一起独特形成了人工智能最重要的三要素。

因为现阶段晋升 AI 认知世界能力的最有效途径依然是监督学习,而监督学习下的深度学习算法训练须要海量已标注好的数据集,所以为机器学习算法训练提供数据标注服务就成为近年人工智能热潮中必不可少的一环。

行业倒退晚期,因为泛滥 AI 企业对算法的训练更多是以试验为主,并无具体的利用要求,所以彼时对标注数据集的品质要求较低,这在无形中催生了大量中小型数据标注团队的诞生。

此时打在数据标注行业身上的标签为“劳动密集型”、“门槛低”、“泥沙俱下”。

但人工智能根底数据服务实质上却并非人们设想中的数据作坊,其倒退依赖于基于技术的数据处理平台和工具,以及迷信高效的治理。

随着人工智能从业企业的算法模型通过多年的打磨,根本达到阶段性成熟,数据标注行业也在悄悄产生着扭转。

AI 企业对训练数据集的品质要求一直进步,并且当产业落地成为主旋律时,需求方对垂直场景的定制化数据标注需要成为支流,各类简单场景下的标注类型晋升了行业技术门槛,泛滥小型 AI 根底数据服务供应商无论在数据品质还是在服务能力上均无奈满足要求,摆在其背后的抉择要么是被淘汰,要么是附丽大平台,亦或者是走最难的一条路——独立研发。

“像咱们这种小团队,没有技术研发实力,个别是甲方提供什么标注平台,咱们就应用什么平台。一旦甲方更换,咱们可能就须要重新学习新平台的应用,这就会压缩本就不富裕的我的项目周期,造成我的项目交付迁延。

此外,这个行业内的人员流动也极为频繁,短短几个月内,一个团队内的成员可能就会齐全换成新的一批人,治理和培训就须要从新再走一遍。”

“咱们也想尝试稳固住团队,同时晋升团队成员的标注能力,以接一些利润率高一些、技术难度大一些的我的项目,比方主动驾驶 3D 点云类我的项目。

然而一来咱们能接触到这些我的项目的机会很无限,二来市面上也没有公开的提供点云标注能力的工具供咱们训练,最初的后果就是被行业所淘汰,像咱们这种行业底层的数据标注员,可供选择的机会并不多。”

时代的一粒沙,落到每个人身上都是一座山。

03

“尽管中小型数据供应商的体量依然可观,但随着业务门槛晋升、客户需要多样化、价格战中利润被压缩等状况成为常态,越来越多的中小型数据供应商在苦恼生存问题,加之业务断档期人员老本的压力,该群体在将来 1 - 2 年内将迎来一阵开张潮。”

这是艾瑞征询在《2020 年中国 AI 根底数据服务行业钻研报告》中,对赵明所在的这类中小规模团队给出的剖析内容。

与中小团队的“惨状”绝对应,则是行业疾速扩张的市场需求与经营规模不断扩大的品牌数据服务商。

“通过数据显示,2019 年中小型数据供应商份额比预期值放大了 20.8%,而这部分份额按 7:3 的比例,向品牌数据服务商和需求方自建团队开释,作为行业的头部营垒品牌数据服务商在这一阶段受害最多,不仅营收方面得以增长,也逐渐巩固了本身领头羊的位置。

而依据增量市场的特色,品牌数据服务商在品牌效益、团队建设、资质、服务意识、业务能力等方面均有劣势,在将来增量市场成为次要拉动力的竞争阶段将占有更大的主动性,从这两方面看,将来品牌数据服务商营垒将代替中小型供应商营垒,占有市场的次要份额。”

这是艾瑞征询对于行业将来的一种预测。在经验了初期横蛮成长阶段后,数据标注行业迎来了一段绝对残暴的洗牌期。

“2020 年开始,咱们这里数据标注团队的数量就开始显著缩小了,我也陆陆续续换了几家团队,不过都不稳固。对于咱们这种没有技术研发实力与商务拓展能力的团队来说,当前的日子只怕是会越来越不好过。”

在谈及本身将来倒退时,赵明说道:“从我本身角度而言,我想持续在这个行业中做上来。当初咱们标注员外部的竞争也越来越强烈了,只有晋升本身能力,尽可能把握更多标注技能,或者才是最正确的抉择。”

赵明顿了顿,持续说道:“不过很少有人违心教咱们,行业内也没有养成承受职业培训的习惯。”

04

数据标注行业里有着这样的一段话:“有多少智能,就有多少人工”。这句话在某种程度上道出了人工智能的实质。

作为数据标注行业重要的“底层架构师”,数据标注员为人工智能行业的倒退奉献了重要的数据能源。但从一门职业的角度考量,数据标注员的社会重要性以及职业倒退却短暂被人疏忽。

正如赵明所说的一样:“很少有人违心教咱们,行业内也没有养成承受职业培训的习惯。”

不过,这种情况正在产生扭转。

2020 年 2 月,数据标注员被正式定义为“人工智能训练师”并纳入国家职业分类目录。

人工智能训练师新职业隶属于软件和信息技术服务人员小类,次要工作工作包含:标注和加工原始数据、剖析提炼业余畛域特色,训练和评测人工智能产品相干的算法、性能和性能,设计交互流程和利用解决方案,监控剖析治理产品利用数据、调整优化参数配置等。

国家政策层面,也屡次强调人工智能畛域人才培养的重要性,无论是国务院印发的《新一代人工智能倒退布局》,还是国家教育主管部门制订的《高等学校人工智能翻新行动计划》,内容中均提及要大力加强人工智能人才培训,满足我国人工智能倒退带来的高技能、高质量业余人才需求。

而从行业外部角度考量,增强数据标注员能力素质造就,晋升其待业竞争力也有着重要的现实意义。

2020 年 4 月人力资源与社会保障部公布的《新职业——人工智能工程技术人员待业景气现状剖析报告》中指出,近三成冀望在人工智能畛域大展身手的求职者与雇主所要求的各项指标相距甚远,次要起因是求职者对人工智能理解有余,不足理论 AI 技能与实践经验。

因为合格的人工智能人才培养须要的工夫远高于于个别 IT 人才,因而不断加强人工智能教育,补齐人才短板,是我国高等教育的事不宜迟。

《报告》同时指出,目前我国人工智能人才缺口超过 500 万,供需比例重大失衡。而与之绝对应,则是行业较低的薪资程度。相干统计数据显示,目前从事简略类数据标注工作的员工,均匀时薪只有十几元,而高薪酬标注我的项目则因为本身技能程度不达标等起因而无奈参加。

这既是数据标注员本身的损失,同时也是行业的损失,高素质人才的缺口已在无形中成为妨碍行业倒退的头等因素。

所以,增强数据标注行业内的职业技能培训,建设起通用的行业人才培训规范,真正意义上填补员工职业倒退与企业用人的需要,是推动数据标注行业有序衰弱倒退的重中之重。

“时代的一粒沙, 落到每个人身上都是一座山,然而咱们也有抉择的机会不是,一直晋升本人,被动适应行业的倒退,才是永保竞争力的要害。”

(本文中呈现的人物为化名)

正文完
 0