数据的将来很小。
随着组织致力应答一直减少的数据量,大数据静止的局限性变得越来越显著。在过来的二十年里,大数据 以尖端软件的模式提供了益处,使数据的生成、收集和合并对组织宽泛可用。这些踊跃影响既宽泛又显著,从航空的最佳路线布局到金融部门的欺诈检测和风险管理,甚至在联邦层面追踪传染病。
但明天,数据存储、清洁和筹备以及结构化曾经开始超出咱们从所有这些信息中收集咱们想要的货色的能力。大数据有时可能太大,以至于咱们无奈依照实时业务的步调进行理论剖析和利用。
将大数据转化为小数据
兴许解决这个问题的办法是小数据。小数据是对用户更敌对、更易于拜访并提供可掂量收益的信息。小数据的指标是在正确的工夫为分析师提供他们须要的数据,以便他们做出最理智和最及时的决策。
在寻求将大数据转换为小数据时,公司能够采取几种不同的路径。最间接的办法是创建一家以数据为核心的理念的公司,建设在数据与公司任何其余资产等同重要的根本了解之上。
这实际上意味着为所需的每个类别创立一组数据,并制订政策强制员工从数据中提取他们须要的内容,并将可操作的精确信息返回给各自的部门。
这可能须要组织小组从新组织他们从地方“黄金记录”数据中获取的数据。然而,只有多数负责保护数据集完整性的专家有权更改组织的次要数据集。
与此同时,世界其余中央通过复制数据集、更改这些数据集而不保护“黄金记录”数据集的完整性,无心中使他们的状况复杂化。
只管复制和更改所有这些数据集最后能够帮忙组织在短期内实现摆在他们背后的任何指标,但明天的结果包含孤立的数据集,使机器无奈与这些数据库进行通信并从中提取相干信息。
以数据为核心的架构是围绕有目的地围绕数据的操作构建的。这也意味着平安和治理协定能够插入数据自身,因而它可能爱护本人。
然而,当今私营和公共部门的可怜事实是,绝大多数公司和组织无奈忽然转变为以数据为核心。那些的确转向这一策略的公司受害于从头开始倒退和扩充规模的能力。
零拷贝集成解决方案
现实状况下,由反复数据集引起的问题将通过零拷贝集成解决——无需复制或以其余形式物理挪动数据的按需集成数据。
此过程将数据拉到一起,而不是将其粘贴到数据存储单元(如池、湖和仓库)中。这容许跨多个数据集进行联结查问,分析师能够在其中利用黄金记录(事实起源),而不用将它们复制到另一个数据孤岛中。
零拷贝集成还容许“数据洁净室”,能够在不泄露理论数据的状况下比拟和剖析来自不同起源的敏感数据。这能够应用不共享数据但依然可能剖析数据并辨认相干位以进行多方计算的密码学来实现。
例如,行业监管者可能想要理解许多公司有多少独特客户。客户领有数据并可能恪守隐衷和合规常规。然而应用明码技术,普通人能够在不共享信息的状况下失去答案。
近年来,各行各业的公司破费了数千万美元和人力小时试图以更高效、更不易出错并提供实在见解的形式从新定位其数据管理系统。但这个过程不可避免地迟缓且低廉。
零拷贝集成性能很快将成为公司用来扩充规模和放弃竞争力的次要燃料类型之一。那些采纳这种办法的人忽然吹牛本人的市场差异化劣势。那些漠视这个问题的人将被抛在后面,很可能会进行运作。
但买进必须产生在执行团队层面。首席信息官理解零拷贝集成是将来。但他们须要他们的最高管理层共事分享这一愿景。
如果组织的最高领导者没有意识到这种转变的必要性并提供资源来实现改革,那么就不可能顺利过渡到新的和改良的零碎。
将将来带入当初
转换为零拷贝集成数据管理系统的财务老本可能仍会阻止许多公司迈出这一步。组织意识到零拷贝集成提供的竞争劣势,但如果老本超出预算,改革的步调就会迟缓。
相似于互联网晚期采纳者的创新者将成为使零拷贝集成成为事实的推动者。这些人具备极强的动机来共享数据和合作以实现微小的翻新飞跃。
同样,学术研究人员——包含那些从事癌症数据和其余扭转生存我的项目的钻研人员——将与大数据静止的领导者一起属于这一群体。
但与最后对互联网的当机立断随后失去更宽泛的承受相似,工夫将证实零拷贝集成和以数据为核心的架构将如何成为公司打算的要害局部,因为它们心愿放弃竞争劣势。
金融科技公司曾经在应用语义图技术来施行零拷贝集成,国内供应链公司曾经意识到通过以数据为核心来优化经营的动机。
一旦这种策略的晚期采纳者取得的益处变得显著,零拷贝集成将扭转业务的发展形式——就像短短几年前的大数据一样。