关于人工智能:如何快速准备高质量的AI数据

10次阅读

共计 4800 个字符,预计需要花费 12 分钟才能阅读完成。

摘要: 随着 AI 的疾速倒退,如何疾速筹备大量高质量的数据曾经成为 AI 开发过程中一个极具挑战性的问题!

本文分享自华为云社区《如何疾速筹备高质量的 AI 数据?》,原文作者:徐波。

一、背景

通常来讲,AI 人工智能的三要素是数据、算法和算力。这三要素缺一不可,都是人工智能疾速倒退的必备条件。这一轮 AI 热潮得以疾速倒退,也正是得益于这三个因素曾经准备就绪。数据的品质会影响模型的精度,一般来说,大量高质量的数据更有可能训练出高精度 AI 模型。当初很多算法应用惯例数据能将准确率做到 85% 或者 90%,而商业化利用往往要求更高,如果将要模型精度晋升至 96% 甚至 99%,则须要大量高质量的数据,这个时候也会要求数据更加精细化、场景化、专业化,这往往也成为了 AI 模型冲破瓶颈的关键性条件。

而在大多数人工智能和机器学习我的项目中,数据筹备和工程工作占了 80% 以上的工夫,其中数据荡涤和数据标注占了整个我的项目的 50% 左右。而数据筹备十分耗费人力,如何疾速筹备大量高质量的数据曾经成为 AI 开发过程中一个极具挑战性的问题。

ModelArts 是面向 AI 开发者的一站式开发平台,可能撑持开发者从数据到 AI 利用的全流程开发过程,蕴含数据处理、算法开发、模型训练、模型部署等操作。并且提供 AI Gallery 性能,可能在市场内与其余开发者分享数据、算法、模型等。为了能帮用户疾速筹备大量高质量的数据,ModelArts 数据管理提供了以下次要能力:

  • 提供了数据预览和多维筛选等性能不便 AI 开发者疾速辨认数据;
  • 提供了数据校验、主动分组等数据处理性能减速数据荡涤;
  • 提供了 12 种以上的标注工具来帮忙用户标注各个场景的数据;
  • 提供了智能标注、团队标注等性能减速标注、保障标注品质。

更多功能请见 ModelArts 数据管理:

ModelArts 数据管理为筹备高质量的 AI 数据提供的能力

本案例将以交通标志辨认原始数据集为根底,将应用 ModelArts 为您演示:

  1. 如何应用数据校验性能疾速对数据进行荡涤;
  2. 如何应用主动分组性能从泛滥数据中选出想要的数据;
  3. 如何应用标注工具疾速实现标注;
  4. 如何应用智能标注等性能减速数据标注。

用户只须要进行确认或者稍作调整即可实现标注,能够大大提高数据标注效率,节俭用户标注工夫。

当您实现这个案例,您将把握如何应用 ModelArts 疾速筹备大量高质量的数据。

二、筹备

在开始之前,您须要进行相干的筹备工作,包含注册华为云账号、实名认证、ModelArts 全局配置和 OBS 相干操作,具体请参考此文档。

三、操作

本次案例次要分为以下几个步骤:①从 AI Gallery 下载数据集到 ModelArts 数据管理,② 数据校验:解决非法数据,③主动分组:删除不想要的数据,④数据标注:对数据打标注,⑤智能标注:应用 AI 技术减速数据标注,⑥公布数据集:共享数据。

操作流程图

1. 下载数据集

该案例的数据集名称为“交通标志辨认原始数据集”,曾经上传到 AI Gallery,AI Gallery 地址为 https://marketplace.huaweiclo… Gallery 后须要抉择数据栏,而后在 AI Gallery 搜寻数据集名称“交通标志辨认原始数据集”,或者点击数据集链接下载。

搜寻数据集名称“交通标志辨认原始数据集”

“交通标志辨认原始数据集”详情

抉择该数据集进行下载,配置数据集的指标地位(须要当初 OBS 创立桶和目录),批改名称为“交通标志辨认”,能够依据本人的状况加上形容。点击确认下载后,页面会跳转到“我的数据”页面,这个时候能够点击“我的下载”页面查看下载进度。

下载“交通标志辨认原始数据集”

下载进度

数据集详情

2. 数据荡涤

1)数据辨认

当实现数据下载后,个别须要先进行数据辨认,查看数据的大抵状况,比方有多少数据、数据是什么样的、是否须要荡涤等。这个时候能够点击“开始标注”,能够对数据进行预览,能够看到数据集样本列表。总共 706 张图片:交通标志辨认数据 500 张,其中 100 张已标注,400 张未标注;动物 200 张;其余数据 6 张。样本列表中的图片也会展现标签信息,右侧有该数据集的全副标签信息。目前已有的标签为:

标签信息

数据集样本列表

2) 数据筛选

进行数据查看时往往数据对数据进行筛选,抉择本人想看的数据。这个时候能够点击筛选条件右侧的开展,抉择相干条件进行筛选。ModelArts 数据管理反对对标签名称、文件名称、标注人、样本属性、难例信息等进行筛选。也能够抉择多个筛选条件同时进行筛选。

数据筛选

比方想查看标签名为“green_go”的样本列表信息,则能够间接抉择标签名进行查看。

标签名为“green_go”的样本列表。

理论利用场景中数据往往夹杂着非法数据,须要对数据进行荡涤。该数据集也有相干非法数据:编码谬误 2 张(badencode1.jpg,badencode2.jpg)、图片后缀谬误 2 张(badsuffix1.png,badsuffix2.png)、单通道 2 张(badchannel1.jpg,badchannel2.jpg)。比方依据文件名“badencode1.jpg”查看非法数据,能够看到图片加载异样,因为图片编码有问题。

依据文件名“badencode1.jpg”查看非法数据

3) 创立“数据校验”类型的数据处理作业

ModelArts 数据处理提供了“数据校验”性能,能够对数据进行查看。能够去 ModelArts 主页下的数据处理页面创立数据处理作业。

数据处理页面

创立数据处理作业时能够批改作业名称为“datavalidate”,抉择场景类别“物体检测”,数据处理类型为“数据校验”,输出为数据集“交通标志辨认”的 V001 版本,数据为数据集“交通标志辨认”V002 版本。

创立“数据校验”类型的数据处理作业

4)查看数据校验作业后果

数据校验后果确认: 期待数据处理作业实现,预计须要几分钟。期待作业“datavalidate”实现后能够查看数据,抉择输入数据集为“交通标志辨认”V002 版本,这个时候会提醒是否切换版本,点击是, 会切换版本 ,并且跳转到数据集页面,展现数据集详情。如果不切换版本,数据集展现的还是数据校验前的数据,可能会导致前面的步骤失败。查看后果,能够看到只有 704 张图片,2 张编码格局有问题的已删除,后缀不对的 2 张和单通道的 2 张图片已批改。即曾经对数据集实现数据荡涤。

抉择查看输入数据集版本

依据文件名“badencode1.jpg”查看,非法数据已被荡涤

3. 主动分组

1) 启动工作

在对数据校验之后,发现数据中有 500 张交通标志的图片,200 张动物的图片,4 张其余的图片。如果后面数据未顺利获取到,能够间接抉择从 AI Gallery 下载已进行数据校验的数据集:交通标志辨认已校验数据集。可参考下图下载对应阶段已解决好的数据:

对应阶段已解决好的数据

这个时候如果一张一张去挑本人想标注的数据,或者删除不想要的数据,会很慢很耗时。这个时候能够抉择启动主动分组性能,对交通标注数据和动物数据进行分组。进入页面为全副,而后点击主动分组就能够启动工作。

启动主动分组工作进行数据抉择

启动主动分组工作时填入分组数为 3,属性名称为 group(也能够自定义),点击确认,期待工作执行。主动分组工作会在右上角展现。

启动主动分组工作,填入参数

主动分组停顿查看

2) 工作后果查看

主动分组运行完后,能够在全副页签开展筛选条件,抉择样本属性“group”,再抉择属性值来查看后果:样本属性为“group”,值为 0 和 1 的根本为交通标志辨认数据,辨别在于两个拍摄场景不一样。样本属性为“group”,值为 2 的根本为动物数据。

样本属性为“group”,值为 0 的筛选后果

样本属性为“group”,值为 1 的筛选后果

样本属性为“group”,值为 2 的筛选后果

3) 删除数据

这样数据就曾经实现分组,而且分组后果比拟精确。咱们能够依据后果,将动物数据进行批量删除。点击图片列表右上角的“抉择当前页”,抉择所有数据,而后浏览一遍数据,如果发现已选的数据中有想要的数据,能够勾销抉择该图片,解决完后再点击“删除图片”,即可实现批量图片删除。删除实现后,根本只剩交通标志辨认的数据了。

批量删除不想要的图片

4. 数据标注

在实现数据荡涤,删除不想要的数据后,须要对数据进行标注。此时数据还剩大略 500 张图片。如果后面数据未顺利获取到,能够间接抉择从 AI Gallery 下载已进行数据荡涤的数据集:交通标志辨认已荡涤数据集

在数据集样本列表页面,点击“未标注”页签,筛选条件中样本属性为“group”,值为 0,即可看到交通标志数据数据集中第一个场景的数据。更多应用信息能够查看用户指南

“未标注”页签样本属性为“group”,值为 0 的样本列表

标注工具阐明

点击任意一张图片即可进入样本详情页面进行标注,标注页面会有标注工具栏、图片详情展现、图片列表、标签列表、图片切换等性能,如下图所示。

图片标注页面

抉择矩形框,左击绘制抉择标注地位,而后抉择标签,即可实现标注,点击下一张会主动保留标注后果。也能够应用快捷键 N 切换到下一张。

进行数据标注

5. 智能标注

应用过程中能够感觉到物体检测工作的标注工作量很大,而且手动标注效率不高,这个时候就能够应用智能标注性能来减速。

智能标注会对用户未标注的数据进行主动标注,用户只须要进行确认或者稍作调整即可实现标注。

智能标注被动学习的原理是应用已有的局部数据和 ModelArts 内置算法来训练一个模型,而后应用模型对剩下未标注的图片进行预测。其中疾速型是监督算法,应用的是已标注数据进行训练,精准型为半监督算法,应用的是已标注和未标注的数据进行训练。用户也能够抉择本人的模型进行智能标注,这个时候能够抉择智能标注的预标注性能,同样能失去主动标注的预测后果。预测实现后,人只须要对预测后果进行准确性的查看,预测精确的图片就间接应用算法标注的后果,预测不精确的就人工修改一下标注,这种人机合作的形式,就能大幅度晋升标注效率,节俭用户标注工夫。

1) 启动智能标注

启动智能标注前,倡议每个标签标 15 张以上,这样进度会更高。点击样本列表的右上角“启动智能标注”,应用默认选项即可,点击提交即可开始智能标注。

启动智能标注入口

确定启动智能标注

2) 查看智能标注停顿

提交智能标注工作之后即会跳转到智能标注停顿页面,也能够点击“待确认”页签查看工作进度。

智能标注工作停顿

3) 确认智能标注后果

智能标注运行实现后,能够在“待确认”页签看到智能标注后果。

智能标注后果列表

未标注 402 张,智能标注后果也是 402 张。点击具体的图片进入详情页面确认。确认标签准确性,如果精确,间接能够点击“确认标注”,如果发现不对,能够调整标注后果再点击“确认标注”。

确认智能标注后果

6. 公布数据集

1) 公布数据集版本

实现数据标注之后能够公布数据集版本,能够抉择数据切分和写入形容,也能够不选。

公布数据集版本

公布实现之后会生产固定化的版本,记录总共多少样本,已标注多少样本。也会生成 manifest 文件。Manifest 外面会记录所有样本信息及其标注文件存储信息,对于物体检测,标注未见为 Pascal VOC 模式的 XML 文件,详细描述请见官网文档。

版本详情

2) 公布数据集版本到 AI Gallery

在公布完数据集版本后,能够在 ModelArts 训练中抉择该版本进行训练,也能够将该数据集公布到 AI Gallery,共享给其余用户。进入 AI Gallery 下的数据页面,点击“公布”按钮,填写公布数据集的名称,比方“HDC2021– 交通标志辨认数据集”,抉择数据集名称“交通标志识”和版本“V003”,抉择数据类型为图片,抉择许可类型。点击公布即可。

AI Gallery 公布数据集

公布数据集到 AI Gallery

公布完数据集之后能够点击编辑按钮,欠缺数据集信息,包含数据集首页

点击编辑欠缺数据集信息

至此,本案例实现。

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0