共计 722 个字符,预计需要花费 2 分钟才能阅读完成。
算法、算力和数据作为人工智能倒退的三大支柱,而获取高质量的数据曾经成为人工智能工程化过程中的难题。
如何可能寻找到与算法训练完满适配的数据集,在数据生产过程中有哪些常见的痛点?5 月 12 日,由整数智能与格拉斯哥大学单干举办了一场人工智能畛域的开放性讲座。曾参加编辑《人工智能研发经营一体化 (Model/MLOps) 能力成熟度模型》规范的外围编写专家刘明皓作为本次的分享嘉宾,不仅帮忙同学们更好地了解人工智能行业的现况,还分享了数据生产常识等专业性干货,同时讲述了规范制订过程中的“底细细节”。
讲座现场
整数智能的外围价值是什么?借着这个问题,讲座在同学们两头拉开了帷幕。“如果说过往更多是模型驱动,那么以后数据驱动在产业界和学术界中声量越发得大,无论是主动驾驶还是智能安防的利用落地,都离不开海量的多样性数据集。”
作为以结构化数据服务为主营业务的企业,整数智能保持为合作伙伴提供高质量的数据。既然所有的算法工程师的幻想都是有一份完满数据,或者潜意识里认为提供给我的数据应该是完满的,那么这个问题该怎么样去解决?造成一整套迷信可控可解释的数据生产工作流便被提上了日程。
“在大规模数据生产的过程中咱们会发现很多的问题,这种状况下,咱们须要进行数据荡涤,检测数据集中存在的不符合规范的数据,并进行数据修复,以进步数据品质。”刘明皓介绍,在理论数据标注工作工作下,疾速、高质量成为了关键词。“目前咱们摸索进去了一整套从需要明确到数据交付的全链路品质和进度把控的工作流。”
数据标注品质治理流程
在互动环节,格拉斯哥大学与整数智能的搭档也就数据生产的不同模式、数据安全问题以及人工智能的将来发展趋势等方面进行了交换互动,同时探讨了学术和产业等方面单干的动向。
END