关于算法:如何撰写一份完善的数据标注规则文档

44次阅读

共计 1493 个字符,预计需要花费 4 分钟才能阅读完成。

在数据标注我的项目中规定文档是必不可少的,该文档是标注团队和算法团队达成统一规范的一份协定,让咱们来看看数据标注规定文档有哪些要点,以及如何撰写一份欠缺的文档。

需要背景

您的算法团队务必要论述数据标注的 AI 利用需要背景和指标,这样一来,标注团队能够更好地了解为什么要这样标注而防止诸多了解一致,比如说,您心愿您的主动驾驶 AI 可能准确地辨认路线上的汽车和行人,而且您须要预测被遮挡的物体边界,这就为前面的标注内容做好了铺垫,为什么须要”脑补“标注以及为什么 2D 突围框要紧贴指标……

标注范畴

算法团队要表白分明本人的技术需要不能仅仅停留在口头上,必须将所有细节落到白纸黑字上,标注团队能够很分明地通过文档随时查问标注细节,防止忘记和脱漏,哪些指标是须要被标注的,而那些是不须要的,请在标注范畴中阐明标签的品种和废除数据,这里是一份模仿的标注范畴文档供您进行参考。

规范文档范畴阐明

这份范畴阐明文档仅是长期模仿的一个参考样例,理论标注过程中,该文档应该更全面,比方对于标签的阐明最好有配图从而让标注团队打消歧义,在标注范畴和不标注范畴中尽可能定义所有非凡状况。

标注阐明

标注阐明是您定义如何应用标注工具对数据进行标注的过程,咱们以激光点云标注为例,您至多应该阐明标注的精密度,因为激光点云出于设施的限度,通常无奈齐全捕捉到物体边界,这时候您必须阐明标注工具应该紧贴点云标注,或者通过常识或标准对指标的尺寸进行”脑补“,在上文中咱们提到,您的需要背景当中该当阐明这种状况的起因,因为您的 AI 模型须要对指标的尺寸进行预测,所以标注团队也会牢记这一点。

疑难问题文档

通过疑难问题文档以问答的模式收集标注过程中的所有非凡状况解决是必要的,这为标注团队节俭了很多工夫。很多时候,您的内部人员在测试标注时,曾经发现了许多标注阐明无奈齐全笼罩到的边界状况,尽管您可能曾经在标注阐明中提到了,然而疑难问题局部更适宜口语化表白,问答的模式也有助于标注团队也能更好地了解其含意,这里是一份对于交通灯数据标注我的项目的模仿的疑难问题文档供您参考。

数据标注的疑难问答文档

验收规范

数据标注实现后,您将对数据进行查验以确认是否合乎您的规范,标注团队也会根据此规范做为品质治理的根底,这将有助于标注团队匹配最适宜的质检计划,您须要阐明您的验收形式,全检或是随机抽样查看、抽样检查的比例以及所需达到的准确率、查看的最小元素(以图片为单位或是以标注元素为单位),用一个指标检测标注的案例举例来说:您须要抽样检查 30% 的图片,以 2D 边界框作为最小元素,边界框准确率应达到 98%。

交付格局

当数据标注团队实现了所有数据标注流程,须要将数据进行返回时,通常状况下标注团队须要对数据集格局进行解决,您须要提供残缺的交付格局样例并阐明每个字段的含意,这里有一份很简略的模仿的 JSON 文件供您参考:

{“img”: “1.jps”, // 图片名称 ”anno_tags”: [“apple”,”banana”,”orange”], // 分类标签 ”valid”: True, // 图片是否蕴含无效信息 }

为了减速您的 AI 迭代,请抉择冰山数据

当初越来越多的 AI 公司正在为数据标注而苦恼,从而抉择与业余的第三方公司进行单干,冰山数据是一家全球化的数据标注公司,帮忙企业一站式提供 AI 数据服务,包含各种类型的数据采集和数据标注服务,咱们通过自营 + 寰球联盟的模式提供各类数据标注专家从而满足各种丰盛的数据标注类型,同时咱们也打造了高度流程自动化的数据标注平台,从而让简单的数据标注流程变地更简略。

明天起,抉择与冰山数据单干并晋升您的 AI 迭代速度,请通过冰山数据官方网站分割咱们。

正文完
 0