关于人工智能:如何快速准备高质量的AI数据

摘要：随着AI的疾速倒退，如何疾速筹备大量高质量的数据曾经成为AI开发过程中一个极具挑战性的问题！

本文分享自华为云社区《如何疾速筹备高质量的AI数据？》，原文作者：徐波。

一、背景

通常来讲，AI人工智能的三要素是数据、算法和算力。这三要素缺一不可，都是人工智能疾速倒退的必备条件。这一轮AI热潮得以疾速倒退，也正是得益于这三个因素曾经准备就绪。数据的品质会影响模型的精度，一般来说，大量高质量的数据更有可能训练出高精度AI模型。当初很多算法应用惯例数据能将准确率做到85%或者90%，而商业化利用往往要求更高，如果将要模型精度晋升至96%甚至99%，则须要大量高质量的数据，这个时候也会要求数据更加精细化、场景化、专业化，这往往也成为了AI模型冲破瓶颈的关键性条件。

而在大多数人工智能和机器学习我的项目中，数据筹备和工程工作占了80%以上的工夫，其中数据荡涤和数据标注占了整个我的项目的50%左右。而数据筹备十分耗费人力，如何疾速筹备大量高质量的数据曾经成为AI开发过程中一个极具挑战性的问题。

ModelArts是面向AI开发者的一站式开发平台，可能撑持开发者从数据到AI利用的全流程开发过程，蕴含数据处理、算法开发、模型训练、模型部署等操作。并且提供AI Gallery性能，可能在市场内与其余开发者分享数据、算法、模型等。为了能帮用户疾速筹备大量高质量的数据，ModelArts数据管理提供了以下次要能力：

提供了数据预览和多维筛选等性能不便AI开发者疾速辨认数据；
提供了数据校验、主动分组等数据处理性能减速数据荡涤；
提供了12种以上的标注工具来帮忙用户标注各个场景的数据；
提供了智能标注、团队标注等性能减速标注、保障标注品质。

更多功能请见ModelArts数据管理：

ModelArts数据管理为筹备高质量的AI数据提供的能力

本案例将以交通标志辨认原始数据集为根底，将应用ModelArts为您演示：

如何应用数据校验性能疾速对数据进行荡涤；
如何应用主动分组性能从泛滥数据中选出想要的数据；
如何应用标注工具疾速实现标注；
如何应用智能标注等性能减速数据标注。

用户只须要进行确认或者稍作调整即可实现标注，能够大大提高数据标注效率，节俭用户标注工夫。

当您实现这个案例，您将把握如何应用ModelArts疾速筹备大量高质量的数据。

二、筹备

在开始之前，您须要进行相干的筹备工作，包含注册华为云账号、实名认证、ModelArts全局配置和OBS相干操作，具体请参考此文档。

三、操作

本次案例次要分为以下几个步骤：①从AI Gallery下载数据集到ModelArts数据管理，② 数据校验：解决非法数据， ③主动分组：删除不想要的数据，④数据标注：对数据打标注，⑤智能标注：应用AI技术减速数据标注，⑥公布数据集：共享数据。

操作流程图

1. 下载数据集

该案例的数据集名称为“交通标志辨认原始数据集”，曾经上传到AI Gallery，AI Gallery地址为https://marketplace.huaweiclo… Gallery后须要抉择数据栏，而后在AI Gallery搜寻数据集名称“交通标志辨认原始数据集”，或者点击数据集链接下载。

搜寻数据集名称“交通标志辨认原始数据集”

“交通标志辨认原始数据集” 详情

抉择该数据集进行下载，配置数据集的指标地位（须要当初OBS创立桶和目录），批改名称为“交通标志辨认”，能够依据本人的状况加上形容。点击确认下载后，页面会跳转到“我的数据”页面，这个时候能够点击“我的下载”页面查看下载进度。

下载“交通标志辨认原始数据集”

下载进度

数据集详情

2. 数据荡涤

1）数据辨认

当实现数据下载后，个别须要先进行数据辨认，查看数据的大抵状况，比方有多少数据、数据是什么样的、是否须要荡涤等。这个时候能够点击“开始标注”，能够对数据进行预览，能够看到数据集样本列表。总共706张图片：交通标志辨认数据500张，其中100张已标注，400张未标注；动物200张；其余数据6张。样本列表中的图片也会展现标签信息，右侧有该数据集的全副标签信息。目前已有的标签为：

标签信息

数据集样本列表

2) 数据筛选

进行数据查看时往往数据对数据进行筛选，抉择本人想看的数据。这个时候能够点击筛选条件右侧的开展，抉择相干条件进行筛选。ModelArts数据管理反对对标签名称、文件名称、标注人、样本属性、难例信息等进行筛选。也能够抉择多个筛选条件同时进行筛选。

数据筛选

比方想查看标签名为“green_go”的样本列表信息，则能够间接抉择标签名进行查看。

标签名为“green_go”的样本列表。

理论利用场景中数据往往夹杂着非法数据，须要对数据进行荡涤。该数据集也有相干非法数据：编码谬误2张（badencode1.jpg，badencode2.jpg）、图片后缀谬误2张（badsuffix1.png，badsuffix2.png）、单通道2张（badchannel1.jpg，badchannel2.jpg）。比方依据文件名“badencode1.jpg”查看非法数据，能够看到图片加载异样，因为图片编码有问题。

依据文件名“badencode1.jpg”查看非法数据

3) 创立“数据校验”类型的数据处理作业

ModelArts数据处理提供了“数据校验”性能，能够对数据进行查看。能够去ModelArts主页下的数据处理页面创立数据处理作业。

数据处理页面

创立数据处理作业时能够批改作业名称为“datavalidate”，抉择场景类别“物体检测”，数据处理类型为“数据校验”，输出为数据集“交通标志辨认”的V001版本，数据为数据集“交通标志辨认”V002版本。

创立“数据校验”类型的数据处理作业

4）查看数据校验作业后果

数据校验后果确认：期待数据处理作业实现，预计须要几分钟。期待作业“datavalidate”实现后能够查看数据，抉择输入数据集为“交通标志辨认”V002版本，这个时候会提醒是否切换版本，点击是，会切换版本，并且跳转到数据集页面，展现数据集详情。如果不切换版本，数据集展现的还是数据校验前的数据，可能会导致前面的步骤失败。查看后果，能够看到只有704张图片，2张编码格局有问题的已删除，后缀不对的2张和单通道的2张图片已批改。即曾经对数据集实现数据荡涤。

抉择查看输入数据集版本

依据文件名“badencode1.jpg”查看，非法数据已被荡涤

3. 主动分组

1) 启动工作

在对数据校验之后，发现数据中有500张交通标志的图片，200张动物的图片，4张其余的图片。如果后面数据未顺利获取到，能够间接抉择从AI Gallery下载已进行数据校验的数据集：交通标志辨认已校验数据集。可参考下图下载对应阶段已解决好的数据：

对应阶段已解决好的数据

这个时候如果一张一张去挑本人想标注的数据，或者删除不想要的数据，会很慢很耗时。这个时候能够抉择启动主动分组性能，对交通标注数据和动物数据进行分组。进入页面为全副，而后点击主动分组就能够启动工作。

启动主动分组工作进行数据抉择

启动主动分组工作时填入分组数为3，属性名称为group（也能够自定义），点击确认，期待工作执行。主动分组工作会在右上角展现。

启动主动分组工作，填入参数

主动分组停顿查看

2) 工作后果查看

主动分组运行完后，能够在全副页签开展筛选条件，抉择样本属性“group”，再抉择属性值来查看后果：样本属性为“group”，值为0和1的根本为交通标志辨认数据，辨别在于两个拍摄场景不一样。样本属性为“group”，值为2的根本为动物数据。

样本属性为“group”，值为0的筛选后果

样本属性为“group”，值为1的筛选后果

样本属性为“group”，值为2的筛选后果

3) 删除数据

这样数据就曾经实现分组，而且分组后果比拟精确。咱们能够依据后果，将动物数据进行批量删除。点击图片列表右上角的“抉择当前页”，抉择所有数据，而后浏览一遍数据，如果发现已选的数据中有想要的数据，能够勾销抉择该图片，解决完后再点击“删除图片”，即可实现批量图片删除。删除实现后，根本只剩交通标志辨认的数据了。

批量删除不想要的图片

4. 数据标注

在实现数据荡涤，删除不想要的数据后，须要对数据进行标注。此时数据还剩大略500张图片。如果后面数据未顺利获取到，能够间接抉择从AI Gallery下载已进行数据荡涤的数据集：交通标志辨认已荡涤数据集

在数据集样本列表页面，点击“未标注”页签，筛选条件中样本属性为“group”，值为0，即可看到交通标志数据数据集中第一个场景的数据。更多应用信息能够查看用户指南

“未标注”页签样本属性为“group”，值为0的样本列表

标注工具阐明

点击任意一张图片即可进入样本详情页面进行标注，标注页面会有标注工具栏、图片详情展现、图片列表、标签列表、图片切换等性能，如下图所示。

图片标注页面

抉择矩形框，左击绘制抉择标注地位，而后抉择标签，即可实现标注，点击下一张会主动保留标注后果。也能够应用快捷键N切换到下一张。

进行数据标注

5. 智能标注

应用过程中能够感觉到物体检测工作的标注工作量很大，而且手动标注效率不高，这个时候就能够应用智能标注性能来减速。

智能标注会对用户未标注的数据进行主动标注，用户只须要进行确认或者稍作调整即可实现标注。

智能标注被动学习的原理是应用已有的局部数据和ModelArts内置算法来训练一个模型，而后应用模型对剩下未标注的图片进行预测。其中疾速型是监督算法，应用的是已标注数据进行训练，精准型为半监督算法，应用的是已标注和未标注的数据进行训练。用户也能够抉择本人的模型进行智能标注，这个时候能够抉择智能标注的预标注性能，同样能失去主动标注的预测后果。预测实现后，人只须要对预测后果进行准确性的查看，预测精确的图片就间接应用算法标注的后果，预测不精确的就人工修改一下标注，这种人机合作的形式，就能大幅度晋升标注效率，节俭用户标注工夫。

1) 启动智能标注

启动智能标注前，倡议每个标签标15张以上，这样进度会更高。点击样本列表的右上角“启动智能标注”，应用默认选项即可，点击提交即可开始智能标注。

启动智能标注入口

确定启动智能标注

2) 查看智能标注停顿

提交智能标注工作之后即会跳转到智能标注停顿页面，也能够点击“待确认”页签查看工作进度。

智能标注工作停顿

3) 确认智能标注后果

智能标注运行实现后，能够在“待确认”页签看到智能标注后果。

智能标注后果列表

未标注402张，智能标注后果也是402张。点击具体的图片进入详情页面确认。确认标签准确性，如果精确，间接能够点击“确认标注”，如果发现不对，能够调整标注后果再点击“确认标注”。

确认智能标注后果

6. 公布数据集

1) 公布数据集版本

实现数据标注之后能够公布数据集版本，能够抉择数据切分和写入形容，也能够不选。

公布数据集版本

公布实现之后会生产固定化的版本，记录总共多少样本，已标注多少样本。也会生成manifest文件。Manifest外面会记录所有样本信息及其标注文件存储信息，对于物体检测，标注未见为Pascal VOC模式的XML文件，详细描述请见官网文档。

版本详情

2) 公布数据集版本到AI Gallery

在公布完数据集版本后，能够在ModelArts训练中抉择该版本进行训练，也能够将该数据集公布到AI Gallery，共享给其余用户。进入AI Gallery下的数据页面，点击“公布”按钮，填写公布数据集的名称，比方“HDC2021–交通标志辨认数据集”，抉择数据集名称“交通标志识”和版本“V003”，抉择数据类型为图片，抉择许可类型。点击公布即可。

AI Gallery公布数据集

公布数据集到AI Gallery

公布完数据集之后能够点击编辑按钮，欠缺数据集信息，包含数据集首页

点击编辑欠缺数据集信息

至此，本案例实现。

点击关注，第一工夫理解华为云陈腐技术~

关于人工智能:如何快速准备高质量的AI数据

一、背景

二、筹备

三、操作

1. 下载数据集

2. 数据荡涤

1）数据辨认

2) 数据筛选

3) 创立“数据校验”类型的数据处理作业

4）查看数据校验作业后果

3. 主动分组

1) 启动工作

2) 工作后果查看

3) 删除数据

4. 数据标注

5. 智能标注

1) 启动智能标注

2) 查看智能标注停顿

3) 确认智能标注后果

6. 公布数据集

1) 公布数据集版本

2) 公布数据集版本到AI Gallery

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:如何快速准备高质量的AI数据

一、背景

二、筹备

三、操作

1. 下载数据集

2. 数据荡涤

1）数据辨认

2) 数据筛选

3) 创立“数据校验”类型的数据处理作业

4）查看数据校验作业后果

3. 主动分组

1) 启动工作

2) 工作后果查看

3) 删除数据

4. 数据标注

5. 智能标注

1) 启动智能标注

2) 查看智能标注停顿

3) 确认智能标注后果

6. 公布数据集

1) 公布数据集版本

2) 公布数据集版本到AI Gallery

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复