关于数据可视化:汪源数据分析热词迭出三个统一值得关注

从流批一体、湖仓一体、NoETL、数据中台到 DataOps，古代数据分析畛域热词迭出，企业如何抓住实质，经营数据生产力以提质增效？
9 月 26-27 日，ArchSummit 寰球架构师峰会杭州站举办，网易副总裁、网易杭州研究院执行院长、网易数帆总经理汪源受邀在会上发表主题演讲，深入浅出地分析了现代化数据分析架构中最值得关注的三条主线，包含对立的基础设施、对立的中间层和对立的数据资产，并介绍了国内外的相干技术实现。

对立的基础设施要解决四大问题：湖仓一体、流批一体、规范格局和存算拆散——不仅是文件格式，还包含表格局。汪源示意，现实的对立基础设施是流式湖仓的基础设施，即湖仓和流批都做到一体。除了最底层的对象存储，目前已有可用的开源实现。
对立的基础设施包含六层架构。最底层是存储层，往上是 Parquet 文件格式层，两头加了缓存减速层，用来补救下层需要和底层对象存储之间的性能差距，当初呈现的有 Alluxio、JuiceFS、CurveFS，其中 CurveFS 是网易数帆开源的一个文件存储系统。

最外围的是最近两三年呈现了两个新的档次，一个是表格局（table format），如 Iceberg、Hudi，一个是表服务（table service），如 Arctic。这两个档次可能让底层大数据体系反对湖仓一体、实时更新、版本一致性、ACID 等等，之前的大数据没有这些性能，所以它无奈做一些实时的剖析服务，只能做 T + 1 的剖析。最上层是剖析引擎层。
汪源认为 Iceberg 是最有心愿成为 table format 规范的我的项目。Iceberg 从数据层面提供了 ACID 的能力，并且能够读到任何工夫点的数据；第二个从元数据层面解决了 HMS 性能瓶颈，把原来集中式的元数据变成了分布式的元数据，并且相当于给数据构建了一个多级的索引，可能反对高级过滤，这能解决很多问题。比方大数据场景常见千万甚至亿级文件的查问，基于 Hive 的查问启动可能要花 20 分钟，而 Iceberg 能够做到一分钟以内，这是一个十分夸大的提高。
Arctic 由网易数帆于 2022 年 8 月发表开源，但在网易数帆外部研发曾经将近三年。Arctic 次要用来帮忙 Iceberg 把整体的技术体系构建残缺，因为 Iceberg 只是一种格局，无奈独自造成面向剖析性能最优化的状态。Arctic 首先提供了基于 Iceberg 的自优化的能力，以及 upsert 的性能，反对高效的数据更新。其次反对流批一体，流表和批表定义统一，能够复用。最初是兼容 Hive 和 Iceberg，从而能够疾速落地。
汪源认为，明天由 Iceberg 和 Arctic 独特构建的这一层会成为一个新的事实的规范，在它上面有不同的存储，在它下面有不同的计算体系。“这个两头基本上胜出的只有一家，不可能有多家，否则这个技术栈就凌乱了。”

数据分析的过程，现实的状态是实践巨匠们布局的路线：在数据仓库外面做好了所有的数据转化，每一个团队用很好的 BI 工具只做数据的展示和交互，所有的计算逻辑应该都在数仓外面实现。但实际上每一个团队都会在本人的 BI 外面去做很多的计算逻辑，这是数据仓库的计算逻辑不够用，导致计算逻辑扩散的问题。汪源指出，大家在不同的 BI 产品中看到的数据口径和后果的差别，就是由扩散的计算逻辑带来的。
解决该问题的“中国计划”是数据中台，通过 OneData、OneService、OneID，解决指标口径不统一的问题，所有的口径定义、计算逻辑都在中台做好。数据中台包含了数据仓库，在数据仓库定义了一套标准的指标层，包含原始指标、派生指标、复合指标。下面是数据服务层，提供所有对外的数据。同时又引入了数据治理来保障中台输入的数据合乎品质和平安要求。

国内计划包含三个外围概念：Semantic Layer、HeadlessBI 和 Metric Layer。汪源认为最贴切的形容是 HeadlessBI，以国外的 Cube 产品设计为例，数据输出来自右边的各种数仓，两头 HeadlessBI 要做的是数据建模、平安相干的访问控制、性能减速，最初以 API 的形式提供给左边的上游消费者，次要是 BI 工具以及嵌入式的剖析。

在这个方向上，网易数帆强调的是开发和治理一体化，在建数仓、建指标等开发流动的过程中把数据治理同步实现，让指标、模型等持续保持高质量。此前，网易数帆发现很多客户先找开发的计划来做开发，做完之后发现数据品质不佳，又去做数据治理的我的项目。汪源示意，在开发环节同时把开发治理做好了，就不会有这样的后遗症。

汪源对对立的中间层的期待，包含数据仓库和 HeadlessBI 两层，后者能做建模，包含指标，做权限、减速和服务，同时把开发和治理一体化，通过对立的模型指标计算逻辑和口径，实现事先事中预先的继续治理。这样 BI 层能够真正聚焦在展示和交付上，汪源将其命名为“NecklessBI”，与 HeadlessBI 对应。

汪源还强调，在此过程中，ETL 不会被打消，它只能被转移或暗藏，因为从数据源到剖析所须要的数据肯定是有很多不匹配的，比拟事实的是做 ETL 的自动化，即 AutoETL。

数据资产治理面临的问题，是数据找不到，找到了看不懂，看了之后信不过、不敢用，管不牢等。汪源认为比拟可行的思路就是剖析机构提出的 Data Fabric，它的目标是实现数据的整合利用，它是一个架构思维或者设计理念，并不绑定一个特定的技术实现。

Data Fabric 和其余数据整合利用的形式有显著的区别：数据仓库或者数据中台，比拟强调数据的集中，同时也强调数据比拟深度的预加工。数据湖强调数据的集中，然而它强调数据不要做太多的预加工，应该依照原始的数据格式都存在湖外面，须要的时候再把它拿进去解决。Data Fabric 则强调元数据的集中。
Data Fabric 的理论落地须要构建四个方面的外围能力，包含连贯数据源、被动元数据（active metadata）、数据虚拟化和逻辑数据湖。汪源认为数据虚拟化能最大水平施展 Data Fabric 的能力，因为它可能在数据没有实现集中之前就可能做肯定水平的利用，但并非所有的数据分析都能够基于数据虚拟化来做。网易数帆曾经落地的逻辑数据湖，也是 Data Fabric 的一种实现，它从逻辑上看是一个湖，然而从物理实现上数据还是扩散存储在 Hadoop、Oracle、MySQL 等零碎外面。

总体来说，古代数据分析技术的三大主题，第一个是构建一个对立的基础设施，可能撑持实时数据更新与生产，并且是凋谢、低成本的流式湖仓基础设施。第二个是对立的中间层，包含数据仓库和 HeadlessBI 两个档次，要做到对立的模型、指标、计算逻辑和口径，并实现事先事中预先继续的数据治理。第三个是对立的数据资产，目标是企业全域数据资产的高效的发现、整合和治理，它在实现上可能兼容各种格调的数据处理技术。
“我心愿整个行业可能往这些方向去聚焦，不要产生太多的互相割裂的概念。”汪源说。

【点击理解更多网易技术】

关于数据可视化:汪源数据分析热词迭出三个统一值得关注

对立的基础设施：流式湖仓，Iceberg+Arctic 将成外围

对立的中间层：数据仓库 +HeadlessBI

对立的数据资产：Data Fabric 已落地

总结