关于人工智能:智能标注原理揭秘一文读懂人工智能如何解决标注难题

47次阅读

共计 2888 个字符,预计需要花费 8 分钟才能阅读完成。

无论是在传统机器学习畛域还是现今煊赫一时的深度学习畛域,基于训练样本有明确标签或后果的监督学习依然是一种次要的模型训练形式。尤其是深度学习畛域,须要更多数据以晋升模型成果。目前,曾经有一些规模较大的公开数据集,如 ImageNet,COCO 等。

对于深度学习入门者,这些公开数据集能够提供十分大的帮忙;然而对于大部分企业开发者,特地在医学成像、主动驾驶、工业质检等畛域中,他们更须要利用业余畛域的理论业务数据定制 AI 模型利用,以保障其可能更好地利用在业务中。因而,业务场景数据的采集和标注也是在理论 AI 模型开发过程中必不可少的重要环节。

数据标注的品质和规模通常是晋升 AI 模型利用成果的重要因素,然而齐全通过人力手动标注数据建设一个高质量、大规模业余畛域数据集却并不容易:标注人员的培训与手工标注老本高、耗时长。为解决此问题,咱们能够利用被动学习的办法,采纳“Human-in-the-loop”的交互式框架(图 1)进行数据标注,以无效缩小人工数据标注量。

图 1 基于被动学习的“Human-in-the-loop”交互式数据标注框架

被动学习(ActiveLearning,AL)是一种筛选具备高信息度数据的无效形式,它将数据标注过程出现为学习算法和用户之间的交互。其中,算法负责筛选对训练 AI 模型价值更高的样本,而用户则标注那些筛选进去的样本。如“Human-in-the-loop”交互式数据标注框架,通过用户已标注的一部分数据来训练 AI 模型,通过此模型来标注残余数据,从中筛选出 AI 模型标注较为艰难的数据进行人工标注,再将这些数据用于模型的优化。几轮过后,用于数据标注的 AI 模型将会具备较高的精度,更好地进行数据标注。

以图像分类问题举例,首先,人工筛选并标注一部分图像数据,训练初始模型,而后利用训练的模型预测其余未标注的数据,再通过“被动学习”中的“查询方法”挑选出模型比拟难分辨类别的数据,再人为修改这些“难”数据的标签并退出训练集中再次微调(Fine-tuning)训练模型。“查询方法”是被动学习的外围之一,最常见的“查询方法”有基于不确定性的样本查问策略和基于多样性的样本查问策略。

基于不确定性的样本查问策略可查问出深度学习模型预测时,凑近决策边界的样本。以二分类问题举例,当一个未标注样本被预测为任一标签的概率都是 50% 时,则该样本对于预测模型而言是“不确定”的,极有可能被谬误分类。要留神的是,被动学习是一个迭代过程,每次迭代,模型都会接管认为修改后的标注数据微调模型,通过这个过程间接扭转模型决策的边界,进步分类的正确率。

基于多样性的查问策略,可实现对以后深度学习模型下状态未知样本的查问。将通过多样性查问挑选出的数据退出训练集,可丰盛训练集的特色组合,晋升模型的泛化能力。模型学习过的数据特色越丰盛,泛化能力越强,预测模型实用的场景也越广。

为解决大数据量标注的痛点,基于被动学习且交融多样查问策略的智能标注 AI 解决方案应运而生。通过 EasyDL 平台应用智能标注后,开发者们只需标注数据集中 30% 左右的数据,即可启动智能标注在 EasyDL 后盾主动标注残余数据,再返回大量后盾难以确定的数据再次进行人工标注,同时晋升主动标注的准确性,通过几轮之后,在理论我的项目测试中,智能标注性能能够帮忙用户节俭 70% 的数据标注量,极大地缩小数据标注中的人力老本和工夫老本。

EasyDL 零门槛 AI 开发平台,面向企业开发者提供 智能标注、模型训练、服务部署等全流程性能,针对 AI 模型开发过程中繁冗的工作,提供便捷高效的平台化解决方案。EasyDL 面向不同人群提供了经典版、专业版、行业版三种产品状态,其中 EasyDL 专业版反对深度开发高精度业务模型,内置了丰盛的大规模预训练模型,仅需大量数据即可达到优异的模型成果。

目前,EasyDL 的智能标注性能已反对计算机视觉 CV 方向的物体检测模型、自然语言解决 NLP 方向的文本分类模型两大方向的数据标注。抉择 EasyDL 专业版模型定制,点击“智能标注“即可进入。应用办法也很简略,共为三步:

  • Step1 启动智能标注

在“数据管理 / 标注”上传完训练数据集后,即可激活“创立智能标注工作”按钮(图 2),点击该按钮后,进入数据集抉择。须要留神的是,零碎将主动对抉择的数据集进行校验。校验规定如下:

  • 图像数据集:确保每个标签的标注框数都超过 10 个。
  • 文本数据集:数据集中已标注数据量超过 600 条;每个标注标签的数据量超过 50 条;未标注数据的数据量超过 600 条。

以上图像和文本数据集之所以采取不同的校验规定,是因为在理论场景下,文本与图像的数据集获取形式及数据规模区别较大,且智能标注后端 AI 模型训练的启动样本数量不一。

点击“启动智能标注”进入数据校验阶段,若校验不通过,会呈现“智能标注启动失败”的提醒;若校验通过,则进入筛选数据阶段,用户需稍作期待。

图 2 创立智能标注工作

  • Step2 标注局部数据

零碎会主动从未标注数据集中筛选出最具备代表性、也是最须要优先标注的样本数据。用户须要人工标注这些举荐的样本数据,为了进步标注效率,零碎也会提供预标注供用户批改确认。在图像智能标注中,用户勾选右上角的“显示预标注”开启该辅助性能(图 3),点击“称心预标注后果”即可对预标注后果进行确认;在文本智能标注中,零碎会主动显示预标注标签,点击每一条文本右侧的“确认”或右上角的“本页全副确认”对预标注进行确认(图 4)。

确认所有举荐数据的预标注后,用户能够自主抉择是否进行下一轮数据筛选。图像智能标注中,若用户不停止智能标注,则零碎会主动进行下一轮;文本智能标注中,因为文本数据集规模个别较大,确认数据预标注的人力老本较高,为了晋升用户体验,零碎不默认进入下一轮迭代,用户可点击右上角的“优化智能标注后果”进行下一轮筛选(图 5)。通过多轮筛选,数据预标注准确性也会一直晋升。为了保证数据标注智能,倡议用户至多进行一轮的数据筛选或“优化智能标注”。

图 3 图像智能标注

图 4 文本智能标注

图 5 文本智能标注进入数据筛选优化迭代

  • Step3 完结智能标注

当用户感觉以后举荐数据的预标注已足够精确,不再进行下一轮数据标注举荐筛选,或者零碎主动判断以后标注的数据已足够时,则进入完结智能标注阶段。在图像智能标注中,零碎会弹出提醒(图 6),抉择“一键标注”零碎会主动标注残余未标注数据,抉择“立刻训练”则进行智能标注,之后能够利用已确认的标注数据去训练模型;在文本智能标注中,不抉择“优化标注后果”则认为进行智能标注,零碎主动标注所有未标注数据,并归为“已标注·智能”数据集,该类数据与“已标注·人工”均可用于模型训练。

图 6 完结图像智能标注

图 7 EasyDL 智能标注应用流程图

在智能标注性能的加持之下,反复干燥的标注性能都交给 AI 模型,大大降低了工夫与人力老本。在数据方面,EasyDL 中的 EasyData 智能数据服务平台,提供笼罩采集、荡涤、标注、加工等一站式数据处理性能,并与模型训练环节无缝对接,通过数据闭环性能反对高效的模型迭代。

百度搜寻“EasyDL”,尝试智能标注,开发你的高精度业务模型吧!

正文完
 0