共计 1887 个字符,预计需要花费 5 分钟才能阅读完成。
在人工智能三要素“数据、算力、算法”中,数据相当于人工智能算法的“燃料”。无论是企业的 AI 业务利用开发,还是高校师生团队的 AI 科研项目,想要获取高精度模型,必须要思考的是具备短缺的训练数据。
简略了解,数据标注相当于为“投喂”AI 筹备“食物”。机器学习中的监督学习和半监督学习都须要人工标注好的数据进行学习,其训练集、验证集和测试集都是标注过的数据。
比方,如果要教 AI 意识苹果,能够用 1000 张标注“苹果”的图片以及更多的不包含“苹果”的图片作为训练集,机器会从中学习失去一个模型,当前再遇到相干图片时就能认出是不是苹果。
然而,在真正的业务和科研场景,动辄上千甚至上万条的数据,标注就成了令人头秃的问题。别小看标注只是画框和点选操作,如果仅依赖一人进行标注,这样的效率足以让整个 AI 我的项目陷入停顿停滞的地步。
察看到这一需要,百度 BML 全功能 AI 开发平台推出特色性能「多人标注」,化整为零、分块并行,倍速级实现数据标注,AI 开发效率晋升不是梦!
在多人标注中,共有三种角色:管理员、标注员、审核员。管理员创立多人标注工作,调配给指定的标注团队,标注员实现标注后,引入审核团队对标注员的工作进行审核,进一步提高了标注的准确率,保障了后续模型训练的标注准确性。审核员审核全副实现后,管理员对整体的标注成果进行验收,验收实现后标注工作正式完结。
想要启动「多人标注」工作,只有创立好数据集,就能够间接启动应用啦。目前全面反对 BML 平台上的图像和文本工作。用过的都说好!
简略四步,团队合作搞定海量数据标注
(文末有福利)
- 管理员创立团队与工作
首先,管理员创立好标注团队和审核团队,并在团队里增加相干的成员并欠缺信息。
团队创立好后,就能够对已有数据集的未标注图片发动多人标注工作了。如下图:
目前对数据集外面未标注的数据进行工作平均分配,在工作创立时,管理员能够灵便抉择是否须要标注审核、工作截止工夫、成员权限和数据保留形式。
实现工作创立并提交后,后盾会主动进行工作的平均分配,并将标注工作的链接发放到标注团队成员的邮箱中。
- 标注员进行标注
标注员点击邮箱收到的工作链接开始标注,在管理员设置的完结工夫之前实现即可,标注实现后进行工作提交,依据管理员设置决定是否进行工作审核。
上图为标注员的标注页面,管理员能够为每个标签设置对应的色彩,标注框的色彩也会随之变动,以计划标注员进行标注和查看。同时,EasyData 也反对标签置顶和锁定性能,便于标注员疾速抉择罕用标签,晋升标注效率和准确率。
- 审核员进行审核
审核员点击邮箱外面的审核工作链接,在管理员设置的完结工夫之前,对标注员的标注工作进行审核,审核实现后提交工作。所有审核工作都提交后,管理员进入验收环节。在整体流程中,审核员的退出分担了管理员的审核压力,也进步了对标注员的要求,通过多种形式晋升数据的标注品质,晋升了验收环节的效率。
- 管理员验收
管理员能够看到标注工作和审核工作的停顿,以及所有的标注详情。在须要审核的状况下,如果某个标注员的标注后果审核通过率较低,能够进行打回与从新标注,审核员与管理员也须要从新审核与验收。在验收实现之后,标注数据会保留到指标数据集中,标记着多人标注工作实现。
基于 BML「多人标注」性能,本来沉重的数据标注工作能够通过团队合作的形式进行调配,并且,引入管理员、审核员角色,将标注工作进一步细分,在保证数据品质的前提下,最大化晋升团队合作效率。
百度 BML 全功能 AI 开发平台
百度 BML 全功能 AI 开发平台(Baidu Machine Learning),基于英特尔 ® 至强 ® 集成 AI 减速,是为企业和集体开发者提供机器学习和深度学习的一站式 AI 开发服务。提供一站式、低代码、高效便捷的 AI 开发体验。包含:
数据处理:摄像头数据采集与回流、在线标注、多人标注、智能标注、数据荡涤、数据质检;
模型训练:低代码的预置模型调参模式、notebook 原生编程模式、多文件上传的自定义作业模式;
服务部署:全面的私有云部署和端侧离线部署能力,反对服务主动启停、流量切分、自定义配额、性能评测。
性能有多贴心你曾经感触到了吧!
当初,BML 还在进行“2021 万有引力打算”,百度搜寻“百度 BML”(https://ai.baidu.com/bml/)参加流动,体验平台性能即有可能取得 10000 元的 AI 特权,可能兑换超级“奢华大礼包”!
比方:
6000+ 小时的自定义模型训练时长;
590+ 小时的预置模型调参;
私有云模型部署服务 400+ 小时配额;
或者兑换 50 个设施端的 SDK。
加上完全免费的「多人标注」,妥妥地满足一个 AI 模型 Demo 的开发调试,不领就错亿!