起源:InfoQ
作者:彭锋,编辑:谈数据
依据信通院数据,2019 年,我国数据产量总规模为 3.9ZB,同比增加 29.3%,占寰球数据总产量(42 ZB)的 9.3%。而 IDC 中国预测,2025 年中国大数据产生量无望增长至 48.6 ZB,这曾经超过了 2019 年寰球数据量的程度。这对大数据行业来说,既是时机,也是挑战。
越来越大的数据量,加上数据敏感和软弱等的特点,数据治理始终都是一个困扰企业倒退的问题。有开发者示意,每个人都在议论数据治理,却没有人真正晓得该怎么办。
— 01 —数据治理有哪些难点?
Q:在当初的企业数据治理上存在哪些痛点? 为什么会呈现这些问题,以及当前情况下是怎么解决的?
A:数据治理和数据开发始终都是困扰着企业的难题。Google 最近发了一篇文章示意,尽管 Google 在 AI 算法上十分厉害,但如果大家都只想搞算法,没人想去搞数据,那算法是没有用的。比方进来个脏数据,算法一点用都没有。但搞数据的工作,大家都认为很“脏”、很劳神,算法更高大上。
数据的治理和数据品质十分重要,整个数据开发流程也十分重要。算法是最初让数据产生价值的很重要的一部分,然而如果没有后面的筹备工作,那么数据品质和数据开发效率就无奈保障,前面算法也施展不了作用。很多公司,包含 Google、Twitter 和 Facebook,他们的算法之所以有那么大的作用,就是因为他们数据的基础架构做得好,所以他们能力保障算法的有效性。
那么这个难度在哪呢?当初,数据管理、治理工具和数据治理体系临时还没有一个成形的体系,所有公司的数据品质、数据开发工具根本都是拿开源组件本人长期搭建。
整个数据的测试流程中,大家很少据说数据有 CI/CD,数据有没有 CI/CD?数据的 ETL 程序有没有 CI/CD?数据开发完了在哪测试?能不能在生产数据上测试呢?如果程序是对的,那数据扭转后我的程序语义还可能保障它的正确性吗?企业在理论生产时,这些问题都是在大规模应用数据时会常常碰到。因为数据的应用,大家感觉大数据如同搞了很多年,但其实到当初大数据的根底才逐步成熟,大家也才意识到,数据组织后的数据品质是更重要的。
所以,我感觉当初正是将数据品质、数据治理和整个数据开发体系的工具提到前台的好时机。以前数据根底还没有成熟,提这个可能有点早,但当初越来越多的企业,特地是头部企业发现了这个问题。
硅谷的很多公司,包含在国内的头部公司,他们早就遇到了这些问题,他们本人外部必定是有解决方案的。产品化的事件也有人在做,大家当初看到的开源工具里像 Spark、Kafka 都很成熟,做得都很好。然而,像 DataOps 这种跟企业的底层数据状况和数据的基础架构严密相干的工具比拟少,DataOps 工具刚刚呈现,当初也才取得大家的关注。
— 02 —什么是 DataOps?
Q:当初越来越多的技术和厂商都在产品中会提到 DataOps,然而可能目前大家对 DataOps 定义还没有很对立的定义。那么,到底什么是 DataOps?为什么它当初会被很多企业青眼?
A:DataOps 是从 DevOps 借鉴的一个理念。能够了解为 DataOps 是把 DevOps 的一些理念映射到了数据开发上,它们的很多观点是能够一一对应的,如开发及运维、云原生、微服务化、CI/CD,这些都能够在 DataOps 里找到,如果你的 DevOps 里没有这些概念,就要思考下你的开发流程是不是合乎最佳实际。
但 DataOps 与 DevOps 也有区别。DataOps 是想解决数据,而在 DevOps 里是不须要解决数据的,它次要是做利用的开发,利用的 CI/CD、公布及运维。但就像方才说的,DataOps 实际上属于一个比拟晚期的概念,大家对它的解读还是会有不一样。
在 DataOps 外面有很重要的一点,就是要解决数据的各种不可预知性。数据语义是一个难题,它没方法在 CI/CD 里被容易定义,不是没有方法,但很艰难。之前大部分原生大数据组件开发时并没有思考到这个标准。
DevOps 也通过了很长一段时间的演变,像 Git 逐步成为标准,微服务基本上都是规范的组件。大数据组件体系架构特地多、抉择特地多,倒退也特地快,当初的 Spark、流数据,Flink,卡夫卡,底层基本上也是 K8S、Hadoop 和 Hdefs,这些基本上能够造成标准化。那么,当初就是做 DataOps 一个比拟好的时候。
DataOps 的工作次要有五个方向:
第一个是任务调度。次要包含云原生调度、容器的调度,这跟 DevOps 是一样的。
第二个是数据安全。数据安全以前根本不在 DataOps 的思考范畴,也不在数据开发的范畴内,但当初数据安全很重要。
第三个就是数据管理和数据门户。大家可能会说原数据管理不都好多年了,但以前的原数据管理次要是针对关系型数据库,关系型数据库对原数据的治理绝对容易,只有到数据库里把原数据爬出来就能够。但当初有流数据、非结构化数据,还有 TaiDB 等,各种各样的原数据怎么样去治理?血统治理更简单了。之前是几个 SQL 之间的血统治理,当初关系到各种各样的查问、各种各样的零碎、数据门户跟 MapDatas 是一样的。
第四是数据检测的可视化。DevOps 里有很多可监测到的指标,数据层面也一样。用多少资源、花多少工夫、发明了多少价值,之前都是一个黑盒子,但 DataOps 的整个数据都是端到端的,相干指标可观测、可治理。
第五就是集成开发。所有的工具必须是可集成的,不可能做一个工具负责血统治理,再做一个工具负责调度。
我认为,DataOPS 外面必须具备这五个工具体系,如果你的 DataOps 体系外面缺了任何一个,我都感觉是不欠缺的。
Q:DataOps 如何做继续测试?
A:数据开发、数据程序的测试始终是老大难问题,甚至头部大厂整套流程做下来也是当初十分艰难的。当初 DevOps 里有一个很有意思的观点,就是把集训资源的治理全副用 Code 来治理,大数据也一样。美国有一个很火的公司叫 DTB,它是要把所有的 ETL(数据仓储技术)流程做成代码治理,将 SQL 的所有转换变量化、代码化,将所有 ETL 程序间的关系、血统全副用代码的模式来进行治理。能够说,不只 SQL 是代码,整个调度也都是代码。所以,DBT 的整个 ETL 程序能够被放到 Git 外面。
用户能够在指定的 data source 的测试环境中能够测试,能够到 Data 生态环境中间接切换一个 Data source,将其变成生产环境,所以它容许撑持 ETL 流程的 CI/CD。将所有 ETL 程序之间的依赖全副代码化,这就是 DTB 的一个思路。
除了 ETL 之外,咱们当初做的事就是把所有大数据组件外面的关系、程序全副代码化,这是将来的必然趋势。
— 03 —DataOps 与云原生数据中台的关系
Q:DataOps 与云原生数据中台是什么样的关系?他们目前各自的倒退状况如何?
A:国内数据中台也提了两三年了,有胜利的案例也有失败的。咱们在这方面也做了很多摸索。咱们的观点是,数据中台相对要做,但 DataOps 是实现数据中台的一个最好的方法论和工具体系。
这跟 DevOps 是一样的。一个业务零碎能够应用 DevOps 办法来做,也能够应用传统办法去做,两种办法最初做成的业务零碎可能都差不多,但这只是开始的时候差不多,前面的继续迭代、继续运维的时候,就能看进去 DevOps 的劣势了。
数据中台也是一样,它是给大家提供一个数据开发和经营的底座,开始你能够用各种各样的办法去做一个数据平台,然而后续迭代和一直倒退的时候,DataOps 就成为最合适的一种办法。
DevOps 提倡的是赋能和自助,通过 CI/CD 继续公布,开发工程师本人来做运维测试,DataOps 也一样,也是提供工具让各个业务部门等数据使用者,可能在中台上拿到本人须要的性能。咱们认为这是 DataOps 和数据中台的关系。
Q:企业如何去做云原生数据平台的革新?整个过程可能会面临哪些问题?
A:我感觉,当初云原生的数据中台还是一个比拟有挑战性的课题,但也是个必然的趋势。很多企业的数据平台效率非常低,因为传统大数据平台应用的 Hadoop、卡夫卡等都不是在云原生的形式下开发,资源应用效率低、治理简单,但云原生会大大降低整个零碎的治理复杂度,进步零碎的应用效率和经营效率。
这个过程中会面临的艰难,次要是人才问题。这个技能的门槛比拟高,须要研发既懂云原生又懂新技术,这样的人才缺口还是挺大的。但这也有个益处就是,云原生产品的标准化水平比拟高,这样容易做出标准化的产品让大家应用。
举个例子,以前装一个大数据平台须要间接面对底下的物理及虚拟机,但各种各样的配置,不同的操作系统、环境和网络,所有这些都得去治理。K8S 的呈现就让大家不用再思考所有的底层组件,只有跟云原生这个体系对接就能够了。这是一个很好的机会,所有的企业肯定会看到,但这个过程必定是须要工夫的。
Q:您之前屡次提到过“数据中台方法论”,这个方法论具体都蕴含哪些内容?
A:这个方法论的次要目标就是谋求效率。咱们国内很多客户的大数据平台的资源使用率大略都是 15%-20%,但 Twitter 的天然使用率个别能达到 50%-60%,而且还有各种各样的弹性扩大、主动容错等云原生性能。
理解这个之后,须要做到以下四点:
第一,抉择适合的工具和平台。这个是根底,选不到适合的架构工具,也就不存在效率了,所以如何抉择适合的平台工具很重要。
第二,要有一个欠缺的顶层架构设计。因为数据平台要把大家的数据接进来,与业务零碎对接起来能力产生成果。DevOps 分布式的开发,集中式的治理,但这个集中式治理不是靠人,而是靠体系和工具。
第三,业务驱动。为了大数据而大数据个别胜利不了,肯定是能够解决业务问题的能力走到最初,解决不了业务问题的数据平台是伪命题。解决业务痛点之后,还要赋能业务。要把业务部门引入进来,一直应用这个数据平台,取得业务部门认可后这个货色能力走。
第四,要有价值掂量体系。如何量化产生的价值,很艰难然而也很重要。咱们个别要求决策方、业务方,技术方和数据平台等各方面职责明确,防止前面呈现越来越多的问题。
— 04 —DataOps 的利用
Q:2018 年,高德纳把 DataOps 纳入了技术治理成熟体系曲线外面,DataOps 被正式接收和推广。三年过来了,目前有什么成熟的利用案例进去吗?
A:DataOps 在云原生进去之前就有,但可能没有叫这个名字。头条、腾讯等大厂们都有本人的一套 DataOps 体系,Twitter 等硅谷公司也有,那为什么当初才提出来?因为这个货色要产品化。尽管大厂都有 DataOps 体系,然而将近一百人的数据团队,eBay 大略有三百多人,个别企业很难请得起这么多高薪的人才。
当初 DataOps 火了是因为大家都须要,数据价值不是大厂独有的。但横梗在前的老本问题怎么解决?这就须要 DataOps 工具将数据价值开发平移化。为什么称为云原生的 DataOps?因为只有云原生技术对立了各种各样的硬件环境、开发环境、公布环境、运维流程等等之后,DataOps 才能够将聚焦在数据开发、数据监控、数据管理、原数据和数据安全上。
Q:您在 Twitter 的时候,一个主要职责就是让公司所有的人防止反复开发数据组件。这个需要是在一个什么样的背景下产生的?
A:这个就是很重要的不要反复造轮子的问题。从新造轮子会造成资源耗费,而后减慢开发速度。要防止不从新造轮子,那么就必须晓得当初有什么“轮子”,但很多企业并不知道本人有什么“轮子”。DataOps 很重要的一点就是原数据管理,它的原数据管理比原来的要更宽泛,它能够晓得整个企业有什么样的数据性能。
更重要的是,企业从新造轮子,一旦两个轮子造得不一样,会把这个车开垮。咱们原来做数据门户,就要求所有的业务部门和数据分析师必须做对立的接口,而后发现有两个部门就在反复造轮
Q:DataOps 会有开源生态吗?
A:目前是逐步成熟的过程中,还没有成熟到大家都能够应用的端到端产品。
咱们之前公众号有篇文章讲到,硅谷的大略十几家公司,每个公司都有本人的数据门户和产品,然而没有成熟的产品。往年 6 月份左右,Linking 将本人的数据门户产品开源了,也有人在做血统治理,但都是这两年才起来的公司。这个生态在逐步造成,然而远远没有达到成熟的阶段。
Q:当初,DataOps 还解决不了哪些问题?
A:我感觉,以后 DataOps 没方法解决业务价值的开掘问题。DataOps 理论是升高了数据应用门槛,让更多的业务人员能够间接开发他们须要的数据并将这个开发成绩给大家应用,这在以前必须要依赖数据科学家或者数据工程师。然而,如何把这些数据与业务联合起来、用数据去促成业务,这不是 DataOps 能答复的问题。咱们只是赋能,然而真正怎么样让你的数据去促成企业的业务倒退,那肯定须要企业懂本人的业务。
— 05 —数据行业人才不足
Q:企业在应用 DataOps 的时候,应该如何组建这样的一个团队呢?
A:DataOps 工具并不是要取代数据工程师、数据科学家,或者 DBA 和数据分析师,它让他们更有效率,我晓得在座的不晓得有多少是这个数据科学家,或者是数据工程师。
除了 DBA,数据行业个别有三个比拟重要的角色:数据工程师,负责搭建数据平台;数据科学家,钻研数据的潜在价值,用学习模型来造成用户画像、产品举荐或主动异样检测等;数据分析师,更多从业务角度做数据分析。然而最近呈现了一种职业叫机器学习工程师,他们的工作是进步算法效率,把数据科学家们开发的模型以生态化的模式,更高效地实现。
Q:这些人对 DataOps 是什么态度呢?
A:他们当然欢送。以前数据科学家和数据分析师公布工作时要依附数据工程师帮他们写 ETL 工作,当初 DataOps 能够帮忙他们主动实现。咱们就是让大家能够睡个好觉,让每个人的聪明才智能够施展在他最能施展的中央,而不是终日吐槽后盾、吐槽零碎。
Q:数据管理这一类的岗位,人才供应状况怎么?
A:当初很缺,十分缺。这个行业需要原本就比拟大,加上要做数字化转型,同时门槛比拟高,进入这个行业根本不愁找不到工作。同时这个行业里,教训十分重要,越有教训越吃香。中国美国都一样,所有想做数据我的项目的第一个问题就是找不到人。
— 06 —数据安全还是要靠标准
Q:中国和美国的大数据市场有哪些不同?
A:我感觉当初的差异曾经不大了。当初国内的新型企业很谋求效率的谋求,对先进的方法论也很认可,这个跟美国的公司基本上没有太多区别。尽管我也没有太多接触过美国的传统企业,然而美国传统企业接触这种理念其实也都比拟迟缓。但国内新兴的企业、企业家们,都很认可数据价值,认可云原生理念,也认可业余的企业服务。
要说区别的话,次要还是体现在两边的商务模式上。在美国,数据工程师、数据科学家有很大的洽购权,几万美元、十几万美元产品都是理论做事的人来洽购。但在中国,洽购的决定权是从上往下的。这也是为什么美国的开源比中国的更赚钱,开源打的就是两头这层真正应用的人,他们能够间接报告说须要这个开源公司来提供服务,下面一批就完了。但中国企业要申请个几十万的我的项目,就得从上往下批。
Q:国内市场产生了哪些变动?
A:以前大家做大数据如同是因为这个是一个风口,当初没人是为了大数据而大数据,大家都认可了大数据真的可能产生价值,没有人会狐疑大数据的价值。然而大家对大数据怎么落地还不是很分明。所以,我感觉如何做出更好的工具升高门槛,更快地产生数据价值是当初企业面临的一个挑战。
这几年,因为大家对云原生技术的认可、对开源体系的拥抱,国内的技术生态比以前更加有生机。大家尤其意识到了开源对整个行业的推动作用,很多开源公司也获得了很好的问题。咱们尽管当初没有产品开源,但咱们也有开源打算,心愿可能为整个技术倒退做一些奉献。
Q:去年的大数据蓝皮书也显示了一个数据,中国的数字经济指数在 G20 国家中排名第一,但平安指数排到了 14。据您的察看,目前国内在数据安全治理方面存在哪些问题?
A:数据安全费钱,不产生间接价值,个别企业都不违心做这个事。比方要把几千台机器外面所有关系到用户公有信息的数据集全副找进去,这件事产生不了任何踊跃价值,但它是十分重要的。Twitter 上市的时候,我负责做数据合规时,整个团队花半年多的工夫做数据治理,投入相当大。
这就肯定须要用标准来要求企业数据必须合规,这也是行业倒退到肯定阶段须要解决的事件。数据不标准可能无奈出国做生意,老百姓也就没有安全感。
对 DataOps 来说,企业能够间接把合规的规定实现在 DataOps 体系里,让数据品质等工具帮忙企业实现一些合规查看。但合规是与行业严密相干的,比方银行的数据要合规,那么就会有业余团队把银监会合规的规范转换成 ETL 查问工具,再转成合规报告。所以,合规会纳入到 DataOps 这个体系外面来,然而须要业余的团队来做。
Q:最近公布的《数据安全法》对大数据企业有什么影响?企业如何加固数据安全?
A:我感觉是坏事。所有的企业必须要重视本人的数据合规和数据应用形式。这对大数据企业来说是坏事。
传统形式做数据合规治理比拟艰难。咱们察看到,很多企业应用的 Hadoop 是不平安的,因为一旦用了平安的 Hadoop,还得用平安的卡夫卡、平安的 Spark 等,所有的组件都要是平安化的,那么治理的复杂度要高很多。企业在建设之前,就应该把数据安全、数据合规问题思考进去,前面补课是比拟艰难的。
Q:大数据行业当初面临着哪些挑战?将来的倒退局势如何?
A:大数据还是须要标准,须要一把手的认可和反对。当初很多企业的一把手晓得数据的价值,然而不晓得该招什么样的人,该怎么样去推动数据我的项目的落地,使其真正产生价值。国内当初对数据平台价值的掂量还是一个黑盒子,一个大数据平台到底产生了多少价值没有方法掂量。所以一把手的思路和对整个数据架构的标准体系建设,决定了很多大数据平台的倒退。
将来是 AI 的世界,AI 的底层就是数据。不论是个人成长还是公司的成长、企业的成长,基本上都是数据驱动,数据驱动让生存更高效、生产更高效,放大集体价值。这是一个很值得投入的行业。