关于modelarts:实战案例丨ModelArts在数据标注数据过滤上的应用技巧自动分组

39次阅读

共计 927 个字符，预计需要花费 3 分钟才能阅读完成。

大量简单、乱序的图片顺次标注效率极低，如果一次能够标注一大片的图片将极大地晋升标注效率。

主动分组辨认并提取图像特色，通过 ModelArts 先进的聚类算法能够将所有图片分组：将特色类似的图片归为一类，将特色差异大的图片群拆散。

在花朵辨认我的项目中，需对大量无标注的花朵图片进行标注，顺次乱序标注蒲公英、郁金香、向日葵等将消耗大量宝贵时间

启动主动分组，咱们当时晓得花朵数据集中存在 5 个类别，为他们分组 6 类（聚类算法不能保障肯定将 5 类别齐全辨别进去，需更细化地分组，于是往往分组数需大于理论类别数）：

过约 3 分钟后，通过筛选条件，咱们能够失去主动分组的后果，如第 1 类简直都是郁金香的图片，第 3 类简直都是蒲公英的图片。

第 1 类

第 3 类

于是抉择当前页 -> 输出 蒲公英，即可间接对他们一次性进行标注。

当然并不是每个组都是完满的，如一个组中大多都是 向日葵 ，但还夹杂着 非洲菊 。此时抉择当前页后， 去掉相应非向日葵图片左上角的勾 即可：

事实中的实在图像数据量少，往往无奈满足深度学习网络训练数据量的要求，于是开发者们个别选择网络爬取须要的图片，但爬取下来的图片格调迥异、噪声杂多，想要从中提取须要的图片工作量是微小的。

ModelArts 提供的主动分组算法除了在分组标注上功能强大，在数据过滤场景上也是奇技淫巧。

在安全帽我的项目中，因为理论安全帽图像过少，从谷歌爬取了大量安全帽相干图像（约 3000 张）：

然而这些并不全是咱们想要的“安全帽”，咱们须要工地为背景，且工人类型的安全帽。

于是在主动分组中咱们对这些图像细分为 10 个组（越大的分组数对数据集分组越细，能拆散出更多噪声图像），以下为局部组的展现：

第 0 组

第 1 组

第 4 组

第 9 组

显然相似第 1 组和第 9 组的图片才是咱们须要的后果，第 1 组和第 4 组浏览大抵后能够全副删除，抉择当前页并删除：

删掉噪声图像后，只剩下约 1600 张，过滤了快 50% 的图像：

当然如果还存在很多噪声，咱们持续进行分组，对剩下的 1640 张图再主动分组 10 个类

能够看到，仍旧有许多与安全帽不相干的图像如：

再一次浏览所有分组，对数据进行荡涤，最终 只剩下 1008 张图像，过滤了约 65% 的噪声图像，极大地升高了标注的压力。

点击关注，第一工夫理解华为云陈腐技术~

正文完

发表至： modelarts

2020-07-25

0

关于linux:10大程序员必逛网站良心推荐建议收藏

分组标注场景