乐趣区

关于人工智能:观点分享-格物钛智能科技产品专家李薇非结构化数据平台的底层逻辑和场景化实践

2021 年 12 月 30 日,由中国人工智能产业倒退联盟(以下简称“AIIA”或“联盟”)和中国信息通信研究院(以下简称“信通院”)联结举办的“AI 数据治理技术沙龙”通过腾讯会议进行。格物钛智能科技产品专家李薇对非结构化数据平台的底层逻辑和场景化实际进行了介绍,分享了本人的见解与思考。

01 非结构化数据的现状

近年来,文本、语音、图像、视频以及点云等非结构化数据增长迅速,IDC 预计将来 5 年内企业 80% 的数据将会由非结构化数据组成。非结构化数据具备海量、扩散、多样、异构等特点,目前企业对非结构化的治理也是绝对原始和落后的,他们用传统的文件管理系统,80% 的空间在存储反复的数据、工程师 60% 的工作工夫在进行数据搜寻、40% 的数据处理工夫在用于数据从硬盘读到内存和从内存写到硬盘。

非结构化数据管理面临的挑战:

1、管理手段原始,没有成熟的管理工具和伎俩。
2、数据场景割裂,没有数据链接的平台,数据无奈串联到一起。
3、角色扩散。
4、利用工具割裂。
5、流程割裂,面对海量数据管理,没有适宜的流程。

这些问题导致了目前数据管理的人力老本高、工夫老本高、治理数据规模无奈扩充,造成了数据价值散失。

02 高质量数据作用要害

李薇提到,非结构化数据和结构化数据最大的不同,是非结构化数据简直无奈间接应用,如果想要从海量的非结构化数据中提取出重要信息,绝大多数状况下依附的是 AI 的办法。出名机器学习专家吴恩达始终在强调这样的观点,AI 模型曾经靠近固定,AI 从 Model Centric 向 Data Centric 转变,代码上的扭转曾经无奈满足许多利用场景的精度需要,只有通过晋升数据的品质能力更快晋升算法后果的准确性。Google 有一篇论文讲到,在真正设计简单 AI 的过程中,算法只占据了很小的一部分,外围的内容在数据层面,数据的解决会占用大量的工夫和人力。随着 AI 的进一步倒退,对数据品质的要求一直晋升,然而高效的数据管理系统缺失为企业 AI 落地带来微小挑战。

03 组织形式的改革

李薇提到,在 AI 的倒退过程中,传统的模式是由算法工程师实现全副的工作,包含数据的采集、标注、训练和参数调整等,面对数据量级别一直回升,只由算法工程师实现是难以实现的,会导致数据管理老本较高,无奈反对大规模简单数据的利用。

随着当初 AI 的发展趋势,组织模式正在一直演进,职责分化诞生新的功能模块。由数据运维工程师实现数据标注、荡涤、加强、聚合等工作,后续再由机器学习工程师实现对模型的训练,而算法工程师仅需关注算法的开发。新的组织带来合作难度降级,也须要新的零碎和工具来反对。

04 新一代非结构化数据平台

上一代的数据平台是汇聚传统 SQL 数据库数据反对检索和剖析的平台,格物钛智能科技作为非结构化数据赋能专家,为企业及 AI 开发者提供全新的智能时代数据管理计划,以数据引擎为核心技术,打造下一代数据平台,帮忙更好地开释非结构化数据后劲,助推 AI 工程化和数据资产化最佳实际。

此平台能够反对多维度的非结构化数据,同时通过利用市场对接到不同的数据利用,使用户的数据在整个研发生命周期中通过平台进行治理,同时平台也能将数据的价值使用到各行各业。

简略来说非结构化数据平台解决两个外围问题:数据流转和数据管理。横向上能够简略了解为应用层,格物钛提供更好的工具让数据流转更快,比方数据检索、可视化、版本治理、自动化等等;纵向上在根底和技术层,格物钛自研数据引擎,就像汽车引擎一样给数据提供能源,让它可能更好地应答海量和复杂度挑战,实现更低成本、更大规模。

05 数据引擎驱动性能反动

格物钛自研的数据引擎,带来三大平台性能劣势:存算拆散、多维度的高效数据检索和自动化。底层的存储局部反对多种存储服务,应用了存算拆散的架构设计,能够实现更低成本、更大规模;中间层是跨平台及存储计划的版本管理系统和数据索引加速器,能够撑持下层所有数据的利用、也能够更快地进行数据检索和操作工作;再下层是一个灵便的调度零碎,能够基于轻量的零碎进行横向有限扩大。另外一部分是容许用户去自定义代码,实现更加简单的数据转化以及数据查问的逻辑。格物钛数据平台帮企业用户筑牢新基建底层,驱动海量简单数据的灵便存取用,让机器学习更麻利。

06 解决的场景和案例

图片格物钛数据平台在 AI 开发过程中重点解决三大场景问题——数据发现、数据迭代、数据流自动化。

●发现高价值数据:反对标签化筛选、可视化出现,霎时实现简单场景检索和后果查看;
●高效治理和协同:清晰的权限管控和版本治理,让合作更平安、迭代可追溯;
●自动化数据处理:自定义工作流和开发者工具无缝连接,低成本减速数据流动和迭代。

格物钛正在将翻新技术与实际深度联合,助力 AI 落地和百业智慧降级。以主动驾驶和物流行业为例,格物钛帮忙某主动驾驶公司打造数据闭环,胜利将模型迭代效率晋升 50%;某头部物流企业利用视觉技术对全国几百个港口、园区等不同场景下的人、车、货、仓因素进行全流程管控,每开发一个性能须要 3 个工程近 3 个月工夫,格物钛数据平台解决方案为其把筹备周期从以周为单位缩短到以小时为单位,解决了数据量大、数据品质差等痛点,进步了该企业在 AI 开发过程中的效率,实现了更全面的数据管理和数据采集、筛选、上传的流程自动化。

李薇总结到,随着终端全方位感知物理世界和云的遍及,将来非结构化数据潜能会进一步被开释,利用非结构化数据的 AI 场景将更为宽泛,算法模型开发无效晋升,促成了 AI 工程化落地,并已在安防、金融、客服、批发、医疗衰弱、广告营销、教育、城市交通、制作、农业等畛域实现商用,达成了规模效应。越来越多的企业将在格物钛的帮忙下开释积攒数据的有限价值。

更多信息请拜访格物钛官网

退出移动版