乐趣区

关于人工智能:AI辅助数据标注行业发展的新引擎丨曼孚科技

人工智能是钻研如何通过机器来模仿人类认知能力的迷信,目前人工智能利用最宽泛的计算机视觉与语音交互依赖于监督学习下的深度学习形式,而监督学习下的深度学习算法训练则非常依赖人工标注数据。

相干数据显示,目前一个新研发的计算机视觉算法须要上万张到数十万张不等的标注图片训练,新性能的开发须要近万张标注图片训练,而定期优化算法也有上千张图片的需要。

这些海量训练数据集的背地是有数标注员共同努力的成绩,正如驰名科幻作家刘慈欣所言,“当初的人工智能,后面有多少智能前面就有多少人工。”

不过,随着人工智能落地过程的放慢,这种过于依赖人力的形式也暴露出很多弊病。

首先,AI 商业化对数据标注行业提出了新的要求,想要更加符合落地需要、解决垂直场景具体痛点,还须要海量且优质的标注数据做撑持,这在无形中减少了数据服务供应商的治理以及人力老本。

此外,数据需求量的晋升对服务商的交付能力也提出了新的要求,容易造成我的项目延期等连锁反应。

为了解决这些问题,通过在数据标注以及质检的环节中利用 AI 辅助,进行人机合作,能够无效进步标注效率,充分发挥 AI 对于数据标注行业的反哺作用。

1.AI 预标注

在语音转写类标注我的项目中,数据标注员须要认真凝听每一个词语的发音,判断并转写其语义,这对于标注员的听写能力以及在长时间多任务下的专一力有着极高要求。

通过在此环节利用 AI 辅助,对语音数据进行语音辨认、文字转写和自然语言了解的预处理操作,主动实现标注后,再由人工进行校对,不仅升高了标注难度还能够无效进步标注效率。

以曼孚科技语音标注工具为例,预标注技术加持下,标注工具会自动识别转写语音数据,标注员只须要在预标注的后果上略作批改即可,相比于传统转写操作,AI 辅助能够成倍进步标注效率,实现更少的人力实现更多的我的项目。

2.AI 质检

一个残缺的标注流程,须要经验标注 - 审核 - 质检等多个流程,其中质检在标注的过程中施展着查缺补漏、进步整体标注品质的关键性作用。

目前,数据质检次要以人工质检为主,通过抽查的形式发现标注数据集中的反复样本和不合格样本。然而,人工抽查的形式校验,在准确率和时效性方面都大有有余,很容易漠视谬误样本,遍查的形式在老本上又难以承受。

通过在质检过程中引入 AI 辅助能够无效解决这些问题。相比于人力质检,机器质检无论是在效率还是执行力上都更具劣势,且能够做到笼罩全副数据,无效发现各种问题,进步数据品质。

通过曼孚科技的理论测试,相比于传统的人力抽检,AI 辅助质检均匀能够晋升 5% 以上的数据准确率。

目前,标注与质检是 AI 辅助利用成果最好的两个环节,将来在标注计划创建到交付的全工作流过程中,都能够引入 AI 辅助,充分发挥 AI 对于数据标注行业的反哺作用,实现效率与品质的双重晋升。

退出移动版