关于数据管理:DataPipeline让数据生产力的历史进程再前进一步

49次阅读

共计 6861 个字符,预计需要花费 18 分钟才能阅读完成。

明论资本对话 DataPipeline: 让数据生产力的历史进程, 再前进一步。

当下, 数据所引发的生产因素改革, 正在重塑着咱们的需要、生产、供给和生产, 扭转着社会的组织运行形式。对于企业来讲, 其竞争的实质是在“外部环境、生产环境、供应链协同等”简单且不确定性强的市场环境下资源配置效率的竞争。数据, 作为企业资源的具体表现形式和重要载体, 其治理效力的高下间接决定了企业的生存能力。

随着数据技术的更新迭代和市场需求的疾速降级, 数据管理在内外部作用下逐步被赋予新的责任。在技术侧, 数据源的架构在变得繁多和简单, 数据利用也逐步变得更加垂直和场景化, 这也倒逼了古代数据架构飞速发展。在业务侧, 其被要求答复: 如何疾速感知市场变动、辨认潜在客户需要, 如何加强决策准确性、实时性, 如何构建能改革业务的数据驱动的利用等。数据管理, 曾经从一项技术管理工作降级为系统工程。DataOps 这样的新型数据管理办法, 恰逢其时地走到台前, 补救形象的“采、存、管、用”发力有余的问题。

一千个人眼中有一千种对数据管理的“设想”。明天, 咱们邀请到 DataPipeline 的创始人兼 CEO 陈诚, 走近 DataPipeline, 看这家专一于下一代数据基础设施的公司是如何帮忙企业实现基于 DataOps 理念的“全链路”数据管理。

* 行业变革, 数据管理识变应变求变

“面对不确定性新常态, 对于各行各业的企业管理者来说, 如何高效地利用手头的数据, 实时、准确地感知和洞察业务变动, 更好地进步企业的经营效率、寻找业务的增长点是每个企业都须要面对的必修课。”

——DataPipeline 创始人兼 CEO 陈诚

明论: 在大数据行业飞速发展的明天, 数据管理的重要性是各行业管理者的共识。从您的察看来看, 在过来的 20 年工夫里, 数据管理产生了什么变动?

陈诚: 随着新的业务状态一直呈现, 各行业的客户行为也产生着突飞猛进的变动, 例如服务的场景化社交化、营销渠道的线上线下一体化等, 这对传统的经营模式带来了微小的挑战。企业的推广获客老本、营销流量老本和签单老本越来越高, 流量精准度和转化率有余, 利润缓缓地被吞噬。如何高效地利用手头的数据, 实时、准确地洞察业务变动, 更好地进步企业的经营效率, 寻找在“感知、决策、执行”上的新发力点是每个企业都须要面对的必修课。

同时, 大量行业都非数字原生, 其经验了漫长的业务电子化和经营线上化的信息化及数字化过程, 且均围绕其各个业务板块的业务流程进行, 数据逐步浸透至企业设计、生产、治理、服务和经营等的全流程。这人造地导致数据起源多样, 数据结构简单, 零碎之间互相割裂, 数据难以互联互通, 数据孤岛大量存在。

在数据根底层, 业务状态的丰盛带来繁多的数据品种, 例如撑持外围零碎的新型的 NewSQL TP, 各类支持系统、各经营类利用的场景化和 SaaS 化, 也包含了各类 IOT 设施和工业协定的显著增多。同时, 数据传输层相应呈现各类相匹配的数据获取形式。业务利用与数据利用的下层散布也产生了很大变动。除了传统的 BI 利用外, 当初还呈现了更为简单且智能的嵌入式 BI 和加强 BI。对于面向数据业务的利用, 有各类基于营销、客户服务、产品迭代、风险管理等不同场景的数据驱动型利用的落地, 而构建这些利用不只须要简略的业务逻辑梳理, 而是须要对实体数据的探查和推演。

技术场景的疾速分化产生大量不同个性的存储与计算引擎、信创大势下优良国产根底软件涌现、业务导向下数据结构的疾速迭代、网络技术革新带来的丰盛数据源, 凋敝的技术生态也在召唤更翻新的数据管理形式。

业务全场景翻新、数据量爆炸式增长且浸透度高、数据时效性需要减少、数据采集 / 获取 / 利用的复杂度晋升、异构数据技术引擎的涌现与驱动, 这几个因素的加权将带来必然的数据管理理念与实际的改革。

  • 抉择 DataOps, 数据生产力历史进程再前进一步

“「连贯所有数据、利用和设施」是 DataPipeline 的使命, 这个看似直白的指标, 在以终为始的倒推中, 开展了一张越来越纷杂的产品能力拼图。这是一个构建围绕‘流程 + 工具 + 组织’的 DataOps 时代,DataOps 让咱们有了能力建设的‘上帝视角’。”

——DataPipeline 创始人兼 CEO 陈诚

明论: 围绕数据管理产生的这些变动, 请谈谈这对于企业来说意味着什么?

陈诚: 为了应答业务与数据需要的一直变动, 企业外部治理理念、治理角色、管理工具也面临巨大变化。

从上世纪 90 年代开始, 建设以行业畛域模型为主的数据仓库、数据集市以反对确定性高的报表类需要, 这是数据管理的摸索期, 企业经营治理刚刚开始尝试向业务为外围、数据为辅助的方向倒退。数据管理重点体现在强主题域建模、对动态元数据及主数据的治理、长周期的数据治理, 参加的人员仅限于建模工程师、ETL 工程师、报表工程师这种业余数据岗位。

2010 年左右开始, 因为互联网公司的崛起、互联网数据的爆炸, 开始有了更大量的数据、更加简单和多样的数据源, 以及一些特定场景的数据驱动的利用, 数据的流转、存储以及治理等问题变得更加简单。在这个期间, 企业关注重点转移到建设大数据平台、数据湖、数据中台、数据资产目录。从肯定水平上来说, 大数据平台的初衷是心愿去颠覆数仓的, 但这件事件并没有产生, 企业发现这是两类需要, 两种 workload, 都有实用的场景, 多种治理状态的共生是必要的。

DataOps 这一理念在 2014 年被提出, 于 2018 年被 Gartner 首次纳入数据管理技术成熟度曲线中, 并放弃增长态势, 到 2021 年 DataOps 已由技术萌芽期 (Innovation Trigger) 爬坡靠近至高峰期(Peak of Inflated Expectations)。DataOps 给数据管理提供了一条“流程 + 工具 + 组织”的落地实际新范式。DataOps 理念的指标是使得企业能够通过对数据链路继续构建, 像交付利用一样疾速、灵便地交付数据, 并在过程中治理好数据链路的可观测性, 让数据业务人员更容易地发现数据、平安地应用数据, 最终达到升高 TCO, 进步 ROI, 帮忙各行各业的企业实现数字化和智能化转型的长期战略目标。

明论:DataOps 的数据管理理念具体有什么特点呢?

陈诚: 如何通过加强多方角色协同与麻利开发水平等, 使得数据从生产端到生产端的的各个环节不要脱节, 使数据管理成为一个有机整体, 是将来数据管理的重要方向。DataOps 是这一理念的典型代表, 它有几个要害的数据管理理念变动:

第一个是数据逻辑的叠加。业务利用以流程逻辑为外围, 通过麻利开发、继续集成和继续交付(CI/CD)、自动化测试和代码推广、重用和自动化等的研发能力, 就能够适应广泛的迭代应用需要。而数据利用必须要思考两种逻辑, 即业务逻辑和数据逻辑的叠加, 很难单用业务逻辑解决, 并且数据逻辑变动快得多。因而除了要把握应用逻辑的迭代办法外, 还须要一套全新的对于数据逻辑迭代的办法, 其中应该包含数据利用中对于业务逻辑和数据逻辑的整体考量, 从而做到像交付利用一样交付数据。

第二个是数据模型的后置。在满足绝对确定的数据仓库反对的 BI/ 报表类需要时, 这是强主题域模型驱动的, 即客户对于将来这个数据需要的满足有深刻的具象化了解。因而须要依据数据模型构建 ETL, 使得数据在流转过程中变成满足需要的状态。然而, 随着数据驱动的产品 / 服务 / 营销类数据利用越来越多, 传统的主题域模型不再能提供足够的灵便度, 因而, 越来越多的企业不再做强建模 ETL, 而是转向了对于数据湖 / 大数据平台的建设, 先将数据汇聚, 并将 transformation/ 业务建模的工作后置, 造成 ELT, 以求更加灵便的应答疾速迭代的数据利用需要。

第三个是多种模式的涌现。随着数据利用的场景、品种、时效性要求变的越来越多, 整体数据链路中的各类模式在疾速丰盛。具体表现在数据起源的多模式(业务数据库的实时 CDC 数据、客户端用户行为埋点数据、内部零碎 API 数据、工业设施数据等), 数据利用的多模式(统计分析、异样检测、事件营销、量化风控等), 以及必然带来的数据处理形式的多模式(数据仓库架构、大数据平台架构、通过流式计算引擎架构等)。同时企业也意识到, 基于大数据平台、流式计算引擎的数据处理模式和数仓的数据处理模式并不是代替和颠覆的关系, 而是在可见的将来, 会独特且长期的存在于企业的数据架构当中, 并一直引入和集成更新、更加场景化的解决模式, 以应答疾速变动的市场需求。在这一过程中, 如何治理、保护、监控不同的数据链路和解决逻辑, 是企业必须要解决的问题。

第四个是合作和自助的数据发现。在数据管理晚期, 大家治理的是动态的元数据和主数据, 起初开始提出数据资产目录, 目前又减少了“合作和自助的数据发现”。这意味着数据管理从以前的只有数据科学家参加的数据管理, 到组织里所有的人都自主参加进来, 以更好地发现数据资产的变动。此外,DataOps 在外部麻利合作上也有了更高的要求, 要求数据流水线上各部门的人员都能麻利合作。最初, 随着数据量的迅速减少, 平安也成为一个重要议题。行业法律法规和企业外部风控的不断加强, 都对数据安全的治理提出了更高的要求。

DataOps 时代的数据工具有四个外围组件。首先是数据交融平台, 这外面包含多元异构的数据流转、实时 ELT、Reverse ETL 等数据链路管理, 第二个是贯通整个数据链路的可观测性平台, 第三个是撑持数据链路继续交付的数据发现平台。第四个是保障继续交付合规平安的数据安全平台。这四个外围组件就是 DataPipeline 搭建的 DataOps 基础设施。

* 以基于 DataOps 理念的数据基础设施角逐世界舞台

“DataPipeline 在做的是基于 DataOps 理念的下一代数据基础设施。目前国内还没有围绕 DataOps 建设古代数据管理全矩阵产品的公司,DataPipeline 是第一家。咱们曾经把竞争范畴放到了世界数据管理畛域的舞台。”

——DataPipeline 创始人兼 CEO 陈诚

明论:DataPipeline 始终保持用产品化的形式解决问题, 然而很多人感觉在中国非凡的商业环境下不同行业不同规模的企业面临的问题都很不一样, 你是怎么看的?

陈诚:DataPipeline 在做的是面向数据管理新范式的 DataOps 基础设施, 是世界古代数据架构外围组件厂商。咱们围绕数据链路的开发与治理, 提供合乎本地需要的古代数据架构外围组件, 同时具备世界的能力、布局面向世界的产品。

DataPipeline 要做的不仅是中国市场的 No.1, 也要做世界数据管理畛域最先进的公司。目前, 国内软件业存在的一些短板还亟需补齐, 这突出反映在软件核心技术、软件应用生态方面, 国家也正在从软件大国向软件强国迈进。过来二三十年里, 外围数据基础设施曾经逐渐解脱出被国外厂商把控的状态, 从数据基础设施到应用软件的国产化代替将继续走高, 中间件和数据库的国产化率甚至可达一半左右。DataPipeline, 也在通过标准化产品服务千行百业数据翻新, 这是“解答时代命题”的必然责任。

对于标准化产品, 咱们必须要做到的是对产品的形象提取, 否则的话就只是一个服务型的公司。在设计标准化产品时, 咱们要做的不是解决某一个客户的具体需要, 而是比对大量客户需要, 用宏观形象的思路把这些需要做整合, 设计构建一个灵便、可配置的产品构造。咱们设计的出发点是以形象的角度来思考问题, 而不是只解决繁多的具象化问题。也就是说咱们在打磨产品的时候, 须要比着需要的下限去工作, 而不是需要的上限。尽管对于咱们来说, 产品化意味着更多的工夫和老本投入, 但这是建设一个数据基础设施厂商的必经之路。DataPipeline 提供标准化的产品, 以及能够交付合作伙伴开发的 Paas 平台, 应用对立的可视化治理、反对云化和私有化、上线迅速、不便易用。咱们认为只有这样的产品, 才可能满足不同客户疾速部署的须要。

明论: 具体在面对各种不同的客户时,DataPipeline 是如何通过标准化的产品解决他们不同业务需要的?

陈诚: 不同类型的客户对数据使用的水平和场景会有不同。首先, 以金融、电信为代表的行业较早享受到了“数据红利”, 其数据管理志愿及根底能力突出。其次, 数据痛点比拟明确且经营状况良好的企业, 更能快适应 DataOps 大潮, 比方金融、能源、电信行业和一些头部的世界五百强企业。这些客户自身 IT 程度高, 数据价值密度高, 盈利能力强。他们对 DataOps 的数据管理理念有着很高的认可度和需要, 也是目前国内 DataOps 实际的领军企业。

咱们和某股份制商业银行的单干就是一个典型的例子。银行业能够说是对数据管理要求最高且场景最为简单的客户了, 该银行是国内第一批发展数据仓库建设的商业银行, 自身曾经构建了很强的批处理能力, 在晚期的银行业中其数据架构上处于领先水平。随着实时反欺诈 / 反洗钱、数据驱动营销、服务和风控的需要一直减少, 这对数据管理提出了从批量降级到实时的要求, 以及对数据探查和推演的要求。DataPipeline 为该客户提供了从单零碎实时到多零碎汇聚, 从营销场景试点到经营决策大规模推广的多维度反对。与此同时, 客户外部的数据组织架构与流程也产生了变动, 各类角色参加宽泛, 数据价值极大化开释, 对员工能力晋升和组织稳定性也带来微小帮忙。

制造业, 我国经济稳固倒退的“压舱石“, 其数据管理翻新必要性曾经成为产业共识。但制造业是一个流程长、门类繁多、利用场景简单的行业, 且受限于国内工业程度倒退的在先背景, 该畛域的的数据管理面临较大挑战。该状态下, 制造业反倒对 DataOps 的翻新理念需要迫切度越来越高。这些企业往往在数据管理职责散布上比拟扩散, 各单元主体在接入数据类型数量、数据实时性和数据安全上有各自的差异化要求。DataPipeline 服务过的某出名民营汽车企业, 在十几年前曾经是行业领先地位, 管理体系和 IT 架构在那时候逐渐建设成熟。但为应答汽车行业的继续变动, 该公司在原有主营业务之外, 逐渐减少了对翻新业务和翻新技术的摸索。翻新与危险并存, 这对整个组织的同步和响应提出了更高的要求。客户须要将散布于工厂大脑测试零碎、新能源零碎、智能营销零碎、团体关系型数据库系统、用户满意度评估零碎等各类零碎的数据高效实时地提供到经营治理、业务剖析、物流优化等平台, 以晋升生产经营及企业治理的效率及品质。在过来的两年多工夫里,DataPipeline 将该客户全渠道数据买通, 实现数据对经营、治理、翻新的赋能。并且, 该客户旗下的汽车、生产金融业务子公司也纷纷和咱们发展单干。相应地, 在公司组织上, 客户的精益治理和组织外部合作上也产生了很大变动, 前端业务部门、后盾反对部门、生产与研发部门造成了有机联动。

除以上举例的两个企业客户之外, 像证券、保险、运营商、石油石化这类数据根底较好的行业情况与银行类客户治理个性趋同, 更加看中数据继续交付过程中外围能力的继续增强。医疗、教育、环保等畛域的客户与制造业的企业客户服务教训相通, 都会面临要搭建更长链条、能够满足业务与数据都端到端的 IT 基础设施。当然, 咱们还服务一些头部的互联网、批发行业客户, 他们的业务及信息化程度都比拟高, 对数据管理产品的利用能力也很强, 然而有着齐全不同于以上谈到的银行与制作等行业的数据特点。总之, 咱们通过服务对数据管理有不同个性的行业中的典型客户, 一直考核和打磨咱们的产品, 欠缺咱们的各项能力, 使得咱们的产品能满足各种数据管理的需要。

明论:DataPipeline 的倒退方向是什么?

陈诚: 随着实践经验的一直拓宽与深刻, 咱们将进一步夯实多模式、自动化、自适应的数据链路管理。在此基础上, 咱们也会和客户一道构建具备自动化数据链路运维及经营能力的端到端数据可观测性、满足体系运维与品质经营的可观测性要求。当然, 咱们也将持续摸索基于算法的智能化数据发现和数据安全产品, 帮忙客户获取数据探查、动静元数据管理、数据风险管理等能力。

过来六年,DataPipeline 一直深耕全链路数据管理体系, 凭借在 DataOps 畛域的深刻理解、策略前瞻和丰盛实际, 现已造成“数据链路 + 数据可观测性 + 数据发现 + 数据安全”的一站式 DataOps 产品矩阵, 笼罩了围绕“数据链路开发、治理、与平安”的一整套外围组件。该产品矩阵可使企业的端到端数据工作流自动化, 改善客户在数据交付方面的体验, 从而驱动其更被动的商业决策和更高效的智能化产品及服务。咱们会在 DataOps 这条数据管理翻新之路上一以贯之。

5 月以来, 咱们又陆续落定了与多家顶尖金融机构和重点畛域客户的单干。咱们十分兴奋地看到各类型的企业都在构建品种繁多、影响行业的数据利用, 这一趋势使得咱们的客户遍布金融、电信、能源、制作、地产、批发、互联网、医疗、教育、环保等各行各业。为了可能更好地为各行业、各规模的客户提供翻新的企业级软件, 咱们会继续通过建设笼罩数据全链路、高度标准化的产品矩阵, 在 DataOps 理念领导下, 保持技术驱动、深耕企业服务。咱们会持续以“连贯所有数据、利用和设施”为使命, 帮忙更多各行各业不同需要的企业实现数字化和智能化转型的战略目标。

正文完
 0