数据湖 关于数据湖:读Paimon源码聊设计引子 个别的数据湖都会设计成凋谢通用的,即不和特定的存储、计算引擎(比方Spark和Flink)绑定。所以数据湖的定位是在计算引擎之下,又在存储之上,将其称之为tab…
数据湖 关于数据湖:Hudi源码解读Archive-流程 在数据一直写入 Hudi 期间,Hudi 会一直生成 commit、deltacommit、clean 等 Instant 记录每一次操作类型、状态及具体的元数据,这些 Instant 最终都会存到 ….
数据湖 关于数据湖:全链路数据湖开发治理解决方案20重磅升级全面增强数据入湖调度和治理能力 简介: 阿里云全链路数据湖开发治理解决方案能力继续降级,公布2.0版本。解决方案蕴含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台Data…
数据湖 关于数据湖:StarRocks-30-极速统一的湖仓新范式 2023 年 4 月,StarRocks 3.0 版本正式公布,正式开启了 StarRocks 极速对立的新篇章。从 OLAP 到 Lakehouse,从存算一体到存算拆散,从 ETL 到 ELT,通过两…
数据湖 关于数据湖:数据湖存储的安全写入之道 说到对象存储,必然波及到 S3 协定,S3 协定曾经事实上成为对象存储的通用协定。不过,市面上不少数据平台公司,也会抉择基于 S3 协定又兼顾 Hadoop 应用习惯…
数据湖 关于数据湖:杭银消金基于-Apache-Doris-的统一数据查询网关改造 导读: 随着业务量快速增长,数据规模的不断扩大,杭银消金晚期的大数据平台在应答实时性更强、复杂度更高的的业务需要时存在瓶颈。为了更好的应答将来的数据…
数据湖 关于数据湖:查询性能较-TrinoPresto-310-倍提升Apache-Doris-极速数据湖分析深度解读 从上世纪 90 年代初 Bill Inmon 在《building the Data Warehouse》一书中正式提出数据仓库这一概念,至今已有超过三十年的工夫。在最后的概念里,数据仓库被…
数据湖 关于数据湖:字节跳动基于Doris的湖仓分析探索实践 Doris是一种MPP架构的剖析型数据库,次要面向多维分析,数据报表,用户画像剖析等场景。自带剖析引擎和存储引擎,反对向量化执行引擎,不依赖其余组件,兼容M…
数据湖 关于数据湖:Google-Cloud-X-Kyligence|如何从业务视角管理数据湖 近日,Google Cloud、Kyligence 和 WebEye 独特举办了「智能数据助力企业数字化转型」的线上研讨会,Kyligence 技术合伙人兼副总裁李栋在会上分享了主题为「K…