乐趣区

关于data:DataOps数据运维指南-数据管理的新时代

【注】本文译自:
A Guide to DataOps – DZone Big Data

DataOps 不仅仅是另一种开发方法。它通过民主化的拜访和微小的后劲从根本上扭转了组织应用数据的形式。

    最近一项对于企业面临的大数据挑战的考察揭示了一些无关数据利用的惊人事实。38% 的企业“不足”令人信服的商业案例来应用他们的数据。34% 的公司没有足够成熟的流程来解决大数据技术,其中 24% 的公司无奈为最终用户提供大数据!

    说这些发现令人震惊是轻描淡写。如果调查结果属实,那么很大一部分企业不晓得他们能够做什么——他们必须做什么——利用他们领有的数据,并持续从客户那里收集数据。与竞争对手相比,这使他们处于重大劣势。

    在数据驱动的竞争格局中,漠视数据的益处,甚至无奈充分发挥其后劲,对组织来说只会意味着灾难性的终局。能够必定的是,其中许多组织正在收集大量数据。他们只是不想、不晓得或没有适当的流程来应用它。

    局部问题是遗留数据管道。随着数据在数据管道中从源挪动到指标,每个阶段对数据的含意以及如何应用它都有本人的想法。这种不连贯的数据视图使数据管道变得软弱且难以扭转,从而使组织在面对变动时反馈缓慢。

    应答这一挑战的解决方案是 DataOps。

什么是 DataOps(数据运维)?

    DataOps 是 data operationalization(数据操作化)的缩写,是一种合作数据管理办法,强调组织内数据管道的通信、集成和自动化。

    与数据存储管理不同,DataOps 并不次要关注“存储”数据。它更关注“交付”,即让所有利益相关者都能够轻松取得、拜访和应用数据。它的指标是创立可预测的数据、数据模型和相干工件的交付和变更治理,以便在整个组织和消费者中更快地交付价值。

    DataOps 通过采纳技术将数据的设计、部署、治理和交付自动化来实现这一指标,以改良其应用和提供的价值。这使所有应用数据的利益相关者都能够轻松拜访数据,并放慢数据分析的周期时间。

    通过这样做,DataOps 大大提高了组织对市场变动的响应工夫,并使他们可能更快地应答挑战。

DataOps 解决的挑战和问题

    大数据最重要的承诺——疾速且牢靠的数据驱动的可操作业务洞察——仍未实现,因为存在泛滥挑战,这些挑战可大抵分为组织、技术和人员(应用数据的人)的挑战。

    DataOps 通过联合来自麻利、DevOps 和精益制作办法的学习和实际,帮忙克服这些挑战。以下是 DataOps 所要应答的最重要挑战:

  • 速度

    古代组织依赖(至多必须依赖)来自许多不同起源和许多不同模式的数据。清理、改良和应用数据可能是一个如此简单和漫长的过程,以至于当最终从中产生洞察力时,它们与疾速倒退的业务环境不再相干。

    DataOps 从根本上进步了从数据中获取洞察力的速度。

  • 数据类型

    有时,组织收集的数据可能是非结构化格局,这使得从中提取见解变得极其艰难。此类数据源齐全有可能甚至有可能为新兴业务挑战提供线索。因而,仅仅应用易于解决的结构化数据是不够的。

    DataOps 使组织可能辨认、收集和应用来自每个可用数据源的数据。

  • 数据孤岛

    DataOps 突破组织内的数据孤岛并集中所有数据。同时,它构建了弹性零碎,为每个须要拜访数据的利益相关者提供自助服务。这些零碎随着组织内外的变动而倒退,并且为“数据用户”提供了可预测的形式来查找和应用他们须要的数据。

DataOps 的业务劣势

    通过克服挑战,DataOps 使 DataOps 团队可能将数据交付给须要它的人——数据工程师、数据科学家、ML 工程师,甚至客户——并且速度比以前快得多。这一成就为数据驱动型企业带来了多项益处,其中包含:

  • 最大限度地利用数据

    DataOps 为所有数据“用户”解锁数据,无论是分析师、高管,还是客户。它使数据交付自动化,并在此过程中容许每个部门从数据中提取最大价值。后果是进步了竞争力、对变动的响应能力和更高的投资回报率。

  • 在正确的工夫取得正确的见解

    迄今为止,大数据的一个常见问题是在谬误的工夫取得正确的见解。来得太晚的见解是无用的。DataOps 将数据疾速提供给须要它的每个人。因而,他们能够比以往任何时候都更快地做出更理智的决策,使组织可能疾速倒退以适应市场变动。

  • 进步数据生产力

    DataOps 应用自动化工具将数据交付作为自助服务进行操作。因而,打消了数据申请和数据拜访之间的任何固有提早,从而使所有团队可能迅速做出数据驱动的决策。

    DataOps 还解脱了手动数据管道变更治理流程的组织。相同,对数据管道的所有更改都通过简化和自动化,以提供疾速、有针对性的更改。

  • 针对后果优化的数据管道

    DataOps 在数据管道中退出了一个反馈循环,容许各种数据消费者辨认他们须要的特定数据并从中取得定制的见解。而后,每个团队都能够应用这些洞察来降低成本、发现新机会、增加收入并进步组织的盈利能力。

DataOps 的准则

    在技术方面,DataOps 实现了组织最具开创性的里程碑之一——使他们的数据程序具备高度可扩展性,而不会影响数据分析的速度或品质。因为它借鉴了 DevOps 的经验教训和实际,所以 DataOps 在许多要害方面与前者重叠。这在 DataOps 的三个根本准则中可见:

  • 继续集成

    DataOps 动静地辨认、整顿、集成和提供来自各种起源的数据。当团队为 DataOps 团队增加新数据源进行解决时,新数据会主动集成到数据管道中,并应用 AI/ML 工具提供给各个利益相关者。

    因为自动化,从数据发现到数据管理、转换和洞察定制的所有内容都失去了齐全简化。实际上,能够将数据以实时流的模式间接传输到预测算法,以便向用户尤其是消费者,提供实时的见解。

    这种优化的数据集成过程可确保在数据发现和数据利用之间不会浪费时间。

  • 继续交付

    组织数据的价值取决于从中产生的见解。拜访它的团队越多,从中提取的见解就越多。然而,数据可拜访性也随同着数据治理挑战。DataOps 在整个组织内施行数据治理,同时使数据可拜访性民主化并加强其安全性和隐衷性。

    数据以合作形式有目的地交付给外部和内部数据消费者,同时合乎外部数据品质和数据屏蔽规定。通常,应用“智能”数据平台来实现这一指标。当数据的品质、隐衷和平安失去保障时,各种利益相关者能够应用它来取得精确的见解,而不用放心数据治理的影响。

  • 继续部署

    数字企业依附一系列数据驱动的应用程序来实时做出性能决策,这对组织的将来具备深远的影响。要害工作性能,如欺诈检测、AI(人工智能)聊天机器人、销售、供应链治理等,须要随时可用的最新数据来进行决策。继续部署使所有用户都能无缝拜访新数据。

DevOps 比照 DataOps

    尽管 DataOps 借鉴了 DevOps 的常识和操作流程,但两者之间存在显著差别。列举如下:

  • 人为因素

    只管 DataOps 参与者可能精通技术,但他们更专一于为数据用户创立算法、模型和视觉辅助工具。另一方面,DevOps 参与者是具备操作思维的软件工程师。

  • 流程

    DataOps 流程的特点是数据管道和剖析开发编排,而 DevOps 流程简直不波及编排。

  • 测试

    与 DevOps 不同的是,DataOps 重大依赖数据屏蔽来进行测试,因而,测试数据治理变得至关重要。此外,DataOps 通常在部署之前在数据管道和剖析开发过程中测试和验证数据。

  • 工具

    DevOps 领有成熟的工具生态系统,尤其是测试工具。DataOps 是一种新办法,通常须要团队从头开始构建工具或依据其目标批改 DevOps 工具。

DataOps 平台的演进

    在数据分析的晚期,ETL(提取、转换、加载)工具成为治理大量(相对而言)传入数据的弱小工具。然而,随着传入数据的多样性、准确性和数量激增,对可扩展性和高速数据分析的需要变得更加迫切。数据连接器固有的缺点也被证实是一个限度因素。

    云的呈现将解决数据摄取、治理和剖析的挑战。当 ETL 工具与云资源联合时,它放慢了剖析速度。然而,一个日益严厉的挑战依然存在——数据可拜访性。仅仅应用数据来产生见解是不够的;每个人都应该可能取得这些见解。

    于是,DataOps 诞生了!

    DataOps 实现了数据拜访的大众化。所有利益相关者都能够拜访受组织数据治理政策束缚的平安、高质量的数据,而不是多数人有权拜访数据。

退出移动版