关于olap:猿辅导基于-EMR-StarRocks-的-OLAP-演进之路

一、数据需要产生猿辅导成立多年,晚期是基于关系型的 MySQL 数据库来做数据的需要。随着业务的倒退,多个服务在一个 DB 去做数据的汇总,以及一些微服务架构的产生,使得数据逐步走向决裂,很难在 MySQL 里实现对立的数仓。 因而在 2014 年,公司开始了对立数仓的建设,采纳的是比拟成熟的 Hadoop体系。尽管是用 Hive、MapReduce 做离线的批量的 ETL,然而为了保障用户交互足够快、提早足够短,还是会把最终的应用层的数据放在 MySQL 里来做。包含当初很多离线需要也仍是这样一个链路。 残缺内容请点击下方链接查看: https://developer.aliyun.com/article/1224121?utm_content=g_10... 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

June 13, 2023 · 1 min · jiezi

关于olap:✨-StarRocks-12-月社区动态

大家好 这里是 《StarRocks 12 月社区动静》,一篇文章帮你理解过来一个月社区重要的那些人和事!在这个新的一年开始,咱们要先带大家做一个小小的总结和带大家来意识 2022 年那些对社区做出重大贡献的 20+ 22 位人物!感激大家在 2022 年的参加,新的一年里让咱们一起大展宏兔! Shoot for the stars!⭐  2022 StarRocks 的年度总结: 2022 年 StarRocks 社区的 20+22 位代表人物  奖项携手 StarRocks 打造极速对立数据底座,现实汽车获 DAMA 中国 “数据治理最佳实际奖”逾越速运运单剖析零碎入选 2022 中国数据智能最佳实际案例   技术动静 版本公布StarRocks v2.2.10StarRocks v2.3.5/StarRocks v2.3.6/StarRocks v2.3.7StarRocks v2.4.2StarRocks v2.5.0-rc01/StarRocks v2.5.0-rc02 ️ 文档动静中文文档 上线 query profile 文档补充 64 篇中英文函数文档,波及各个函数分类对齐中英文函数文档架构  举荐浏览技术干货源码解析StarRocks Scan 算子源码解析StarRocks 查问调度源码解析StarRocks 聚合算子源码解析StarRocks Hash Join 源码解析 数据湖剖析技术底细 | 阿里云 EMR StarRocks 极速数据湖剖析技术底细 | 打造一款弱小成熟的数据库有多难?当打造一款极速湖剖析产品时,咱们在想些什么  用户案例51CTO 深度解读:用 “极速对立”,开启金融行业数据分析新范式借力 StarRocks,"陆战之王" 大润发如何在零售业数字化转型中抢占先机?美团餐饮 SaaS 基于 StarRocks 构建商家数据中台的摸索  论坛精选帖StarRocks 最佳实际 —— 问题排查相干StarRocks 最佳实际 ——Flink-connector-starrocks 导入StarRocks 最佳实际 —— 查问StarRocks 最佳实际 —— 运维常见 Crash / BUG 堆栈查问StarRocks 分辨别桶注意事项StarGo V2.0.2-RC 应用介绍  ...

January 9, 2023 · 2 min · jiezi

关于olap:数十倍的数据量增长传统-OLAP-还能应对吗

OLAP 一词最早是关系数据库之父 E.F. Codd 在1993年提出的 ,过后 OLAP 在数据分析畛域是一门支流技术,IBM、Oracle、微软等出名公司都推出了相应的产品及解决方案,助力很多企业解决了过后的数据分析难题。近几年,各大金融机构纷纷拥抱金融科技,数字化转型不断深入,传统 OLAP 技术的弊病逐步浮现,甚至成为业务倒退的妨碍。相较于传统 OLAP 剖析产品带来的限度,基于大数据平台的 OLAP 架构将提供更短的数据开发周期、更快的查问性能、更高的并发性和更易扩大的分布式架构。 1. 面临的挑战以后传统 OLAP 存在如下诸多问题,影响了各大金融机构的业务拓展。 数据孤岛与日益增长的保护老本各个利用零碎多为不同厂商提供及零碎整合度低带来的数据孤岛问题,导致数据应用时效性差,使得各 IT 技术部门须要针对不同业务部门的需要提供不同的数据计划,造成人力资源节约。传统架构施行和软硬件扩容老本昂扬,给企业带来了微小的老本累赘。 响应周期长和低易用性业务人员依赖于技术部门提供的计划,不足自助剖析能力,且新需要开发周期长,无奈疾速应答业务变动,难以反对来自经营剖析、客户治理、精准营销、危险防控等多业务的灵便跨畛域剖析需要,无奈高效应对大数据带来的多维分析挑战。 受限的业务剖析能力随着企业向互联网+金融科技的转型带来的数据量和数据分析需要的爆发式增长,传统数据仓库在数据量、维度数量、剖析粒度、查问速度、构建性能、并发能力等方面也已趋显有余,因为其自身技术架构的局限性,无奈满足企业对海量数据中细粒度维度和指标进行灵便高效剖析的需要,存在剖析时效滞后,剖析预见性差以及回溯剖析艰难等痛点,使得管理者难以从整体上掌控关键问题和剖析起因。 2. OLAP 降级计划如上文所说,传统的集中式技术架构,在云原生高并发、大数据、交融计算等方面的局限,肯定水平上制约了企业的业务翻新,难以满足企业现在的高速倒退。因而,不论是从核心技术自主可控的角度,还是转型降级的主观须要,金融机构的传统 OLAP 降级曾经势在必行。 从容应对数据量暴增,疾速反对多源数据接入面对大数据时代下的数据激增,OLAP 降级计划须要突破传统数仓的随数据量增长、硬件老本也随之增长的魔咒,提供海量数据存储/计算/剖析须要的可扩大平台;同时,该平台须要突破数据孤岛壁垒,疾速整合所有业务条线数据,进行集中式治理,对立数据口径,晋升数据整合度,反对业务高效的跨畛域的综合剖析。以银行为例,在凋谢银行时代,通过买通线上线下多种场景,提供商家商业智能的剖析服务,面向行业重点大商户,提供经营详情、客群剖析、竞合态势等数据服务性能,辅助商户经营决策,发展精准营销的商户智能决策等,为不同的客户群提供有针对性的服务。 疾速的业务响应,赋能长尾开辟能力降级后的大数据平台须要反对超大数据集下的疾速查问响应,实现业务数据分析的通明减速,带来用户体验和价值感的全面降级。该平台须要反对业务人员从海量大数据的成千盈百个不同类型的可剖析维度和指标中(例如商户、渠道、地区、生产情况等)自在筛选进行剖析,撑持企业商务智能(BI)剖析、灵便查问和互联网级数据服务等多类利用场景,助力企业构建更牢靠的指标体系,开释业务自助剖析后劲,让业务低成本甚至零老本利用技术开辟长尾市场,播种胜利。 减速数据平民化,高效带动业务翻新须要让业务人员抛开只能应用已有计划的解放,让“零根底”的业务人员也能轻松进行数据分析,从容应对大数据带来的多维分析挑战,实现真正的数据平民化。例如,业务人员通过联合内外部数据,建设对外围客户的全方位、细粒度的认知,进行商业决策洞察;还能够为客户本身提供数据服务,与其它合作伙伴(银行、电信、第三方)开翻新的利用模式,带动业务翻新。 将来,随着人工智能、云原生、大数据等技术的倒退,企业大数据平台势必会继续变迁。金融业作为数字化转型的先行者,尤为重视业务与科技更深度的交融。成立多年来,Kyligence 服务了泛滥银行、保险、证券等行业的当先企业,助力多家企业对立指标中台、客户旅程剖析、精细化经营等场景的落地。10月27日,Kyligence 特邀来自泰康在线、新致科技的演讲嘉宾,以降级 Cognos 利用为例,从行业实际、业务需要、产品计划等视角一起摸索 OLAP 降级最佳实际。 理解更多金融业 OLAP 降级解决方案,欢送大家点击链接报名10月27日15:00金融业传统 OLAP 降级及精细化经营实际网络研会。 对于 Kyligence上海跬智信息技术有限公司 (Kyligence) 由 Apache Kylin 开创团队于 2016 年开办,致力于打造下一代企业级智能多维数据库,为企业简化数据湖上的多维数据分析(OLAP)。通过 AI 加强的高性能剖析引擎、对立 SQL 服务接口、业务语义层等性能,Kyligence 提供老本最优的多维数据分析能力,撑持企业商务智能(BI)剖析、灵便查问和互联网级数据服务等多类利用场景,助力企业构建更牢靠的指标体系,开释业务自助剖析后劲。 Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制作、批发等行业客户,包含建设银行、浦发银行、招商银行、安全银行、宁波银行、太平洋保险、中国银联、上汽、Costa、UBS、MetLife 等寰球知名企业,并和微软、亚马逊、华为、Tableau 等技术领导者达成寰球合作伙伴关系。目前公司曾经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设分公司或办事机构。

October 26, 2022 · 1 min · jiezi

关于olap:即刻报名|金融业传统-OLAP-升级及精细化运营实践

数据智能时代,企业对于数字化建设的重心逐步由如何治理数据变为剖析和利用数据,数据分析技术也一直从传统向大数据、云原生方向更新换代,以撑持更宽泛的业务用户和更及时的业务决策。相较于传统 OLAP 剖析产品如 Cognos 等带来的限度,基于大数据平台的 OLAP 架构将提供更短的数据开发周期、更快的查问性能、更高的并发性和更易扩大的分布式架构。 Kyligence 将于10月27日举办网络研讨会,以降级 Cognos 利用为例,从行业实际、业务需要、产品计划等视角一起摸索 OLAP 降级最佳实际。本次研讨会邀请了泰康在线的数据平台负责人韦玉龙分享平台建设过程中如何通过产品、技术加强来帮忙企业业务降级;其次,Kyligence 解决方案专家牛娅敏将深度分析从 Cognos 架构到 Kyligence 架构的降级及能力晋升;同时,咱们更特邀了新致软件金融行业的解决方案专家秦莺,带来以科技+数据驱动的保险场景解决方案。 欢送点击链接或扫码海报下方二维码报名参会⬇️

October 20, 2022 · 1 min · jiezi

关于olap:字节跳动基于-ClickHouse-优化实践之查询优化器

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群置信大家都对赫赫有名的 ClickHouse 有肯定的理解了,它弱小的数据分析性能让人印象粗浅。但在字节大量生产应用中,发现了 ClickHouse 仍然存在了肯定的限度。例如: 短少残缺的 upsert 和 delete 操作多表关联查问能力弱集群规模较大时可用性降落(对字节尤其如此)没有资源隔离能力因而,咱们决定将 ClickHouse 能力进行全方位增强,打造一款更弱小的数据分析平台。本篇将具体介绍咱们是如何构建ClickHouse的查问优化器。 查问优化器有多重要?在传统的关系型数据库中,如Oracle、DB2、MySQL,查问优化器都是作为几个最重要的外围组件之一。能够说,没有查问优化器的数据库是不残缺的。绝对 OLTP 而言在OLAP畛域中更是如此;对于剖析类场景,查问更为简单,打算好坏的差别更大。一个优良的查问优化器能够避免用户写出不好的SQL导致执行速度慢,可能精确的抉择出一条效率最高的执行门路,大幅度降低查问工夫。相应的,一个不好的查问优化器,甚至会让查问变慢。 常见的优化器逻辑分为两类,一类叫“基于规定的优化(RBO)”,另一类称为“基于代价的优化(CBO)”,理论利用过程中该当两类兼顾能力获得最佳成果。 基于规定的优化依据优化规定对关系表达式进行转换,这里的转换是说一个关系表达式通过优化规定后会变成另外一个关系表达式,同时原有表达式会被裁剪掉,通过一系列转换后生成最终的执行打算。RBO中蕴含了一套有着严格程序的优化规定,同样一条SQL,无论读取的表中数据是怎么样的,最初生成的执行打算都是一样的。同时,在RBO中SQL写法的不同很有可能影响最终的执行打算,从而影响脚本性能。 基于代价的优化依据优化规定对关系表达式进行转换,这里的转换是说一个关系表达式通过优化规定后会生成另外一个关系表达式,同时原有表达式也会保留,通过一系列转换后会生成多个执行打算,而后CBO会依据统计信息和代价模型(Cost Model)计算每个执行打算的Cost,从中筛选Cost最小的执行打算。 ByteHouse的查问优化器目前支流的OLAP的引擎在查问优化器方面做的并不够好,尤其是ClickHouse。家喻户晓ClickHouse以快著称,然而它的快是采纳了力大飞砖的形式,须要用户将数据事后生成大宽表,以防止过于简单的多表查问从而取得高性能。而代价是,每次维度变动或新需要都须要大量操作,以及在必须应用多表关联进行剖析的场景中显得非常有力。 作为一个企业级的OLAP数据库来说一个欠缺且弱小的优化器是必不可少的,因而,ByteHouse从零开始自研的了查问优化器。查问优化的残缺流程 上图形容了整个查问的执行流程,从 SQL parse 到执行期间所有内容全副进行了从新实现(其中紫色模块),构建了一套残缺的且标准的查问优化器。 次要功能模块AnalyzersAnalyzers 目录包含两局部性能: 一个是 QueryRewriter,一方面是通过 AST 改写的形式实现一些语法个性;咱们同时反对 Clickhouse SQL 和规范 SQL,所以另一方面是确保在 Clickhouse SQL 模式下 SQL 语义能和原生 Interpreter 执行模式统一。另一个是 QueryAnalyzer,用于对改写完的 AST 进行语义的剖析和验证。Analyzer 辨别 ANSI SQL 和 Clickhouse SQL 两种模式。QueryRewriter 针对 ANSI SQL 的改写次要有: With CTE/view 开展;UDF 开展;特定函数的改写,比方将 count(*) 改写为 count(),将 countDistinct(...) 改写为 uniqExact(...);QueryRewriter 针对 Clickhouse SQL 的改写次要有: ...

August 29, 2022 · 2 min · jiezi

关于olap:湖仓一体方案有很多为何偶数的实时湖仓脱颖而出

近十余年,挪动互联网的高速倒退给互联网用户提供了更便捷的服务路径,不论是在地铁、饭店还是室外,用户都能够随时通过手机、pad等挪动设施连贯到高速的挪动网络,实现购物、社交、商务会议等各种网络服务。与此同时,用户源源不断的产生和获取大量的数据,使得数据流量出现爆炸式的增长,不论是互联网巨头、批发、政府、金融等行业,在海量数据的存储、查问和剖析场景,都须要一个能承载多种数据,反对超高并发、易扩容、易保护的实时湖仓。那么,最近热议的湖仓一体到底是怎么的技术?什么又是实时剖析解决?实时湖仓一体技术的逐渐成熟,能给咱们带来怎么的设想空间呢?大势所趋,云原生实时湖仓一体传统关系型数据库的技术架构,尤其是 OLTP 数据库在海量数据的存储、查阅以及剖析方面呈现了显著的性能瓶颈。随着分布式技术的产生和倒退,呈现了以 Teradata 为代表的基于专有硬件的MPP数据库,以及 Greenplum 和 Vertica 等基于一般服务器的 MPP 数据库。在21世纪的前十年,大量企业开始采纳MPP驱动的新型数据库系统,MPP解决了单个SQL数据库不能寄存海量数据的问题,剖析型MPP数据库的激增和老本降落也为数据驱动型组织提供了微小的机会来经营和剖析比以往更大的数据集,但与此同时,数据的快速增长也为固有体系带来额定的复杂性,MPP数据库在集群规模上是有限度的,它所反对的利用次要还是适宜小集群、低并发的场景。2010年前后,大数据热推动 Hadoop 技术疾速遍及,逐步形成了以Hadoop作为数据湖,MPP作为数据仓库的合作模式。这个阶段的 Hadoop+MPP 合作模式,也是“湖仓分体”模式。它让湖和仓有很好的技术个性互补,然而它也会产生重大的数据孤岛问题:同一份数据在多个集群冗余存储,分体模式下的湖和仓各自造成数据孤岛;数据达到PB 级别时, Hadoop 和 MPP 集群规模受限,Hadoop和MPP自身也须要拆成多个集群;在面对高并发数据查问时,易造成业务利用解体。另外,湖+仓带来的简单的施行和运维问题更让从业者头疼不已。为了保障存储和计算能够独立的弹性扩大和伸缩,数据平台的设计呈现了一个簇新的架构,即存算拆散架构。显然,传统 MPP 和 Hadoop 都不适应这样的要求。MPP 数据库存算耦合,而 Hadoop 不得不通过计算和存储部署在同一物理集群拉近计算与数据的间隔进步性能,仅在同一集群下形成逻辑存算拆散。要真正的解决业务的痛点,抉择企业适宜的湖仓产品,咱们能够参考ANCHOR 规范来选型。ANCHOR 中文译为锚点、顶梁柱,或将成为湖仓一体浪潮下的定海神针。ANCHOR 具备六大个性,其 6 个字母别离代表:All Data Types(反对多类型数据)、Native  on Cloud(云原生)、Consistency(数据一致性)、High Concurrency (超高并发)、One Copy of Data(一份数据)、Real-Time(实时 T+0)。通过应用 ANCHOR 六大个性,很容易判断出某一零碎设计是否真正满足湖仓一体。               OushuDB与美国 Snowflake,Databricks这一代产品冲破了传统 MPP 和 Hadoop 的局限性,率先实现了存算齐全拆散,计算和存储可部署在不同物理集群,并通过虚构计算集群技术实现了高并发,同时保障事务反对,成为湖仓一体实现的关键技术。全新框架,Omega全实时框架实现T+0目前,实时处理有两种典型的架构:Lambda 和 Kappa 架构。出于历史起因,这两种架构的产生和倒退都具备肯定局限性。其中, Lambda 架构因为实时数据和T+1数据走不同计算和存储,难保障数据的一致性,Kappa 依赖 Kafka 等音讯队列来保留所有历史,难以实现更新、纠错,故障降级周期长,并且不具备即席查问数据,架构理论落地艰难。同时两个架构又都很难解决可变更数据(如关系数据库中不停变动的实时数据),即使引入流解决引擎实现了局部固定模式的实时流解决剖析,仍无达到 T+0 全实时程度(此处全实时蕴含实时流解决和实时按需查问)。因而,咱们须要一种新的架构满足企业实时剖析的全副需要,这就是基于偶数科技自主研发的云原生数据库OushuDB的Omega 全实时架构。Omega 架构由流数据处理系统和实时数仓形成。相比 Lambda 和 Kappa,Omega 架构新引入了实时数仓和快照视图 (Snapshot View) 的概念,快照视图是归集了可变更数据源和不可变更数据源后造成的 T+0 实时快照,能够了解为所有数据源在实时数仓中的镜像和历史,随着源库的变动实时变动。因而,实时查问能够通过存储于实时数仓的快照视图得以实现。另外,任意工夫点的历史数据都能够通过 T+0 快照失去,这样离线查问能够在实时数仓中实现,离线查问后果能够蕴含最新的实时数据,齐全不再须要通过 MPP+Hadoop 组合来解决离线跑批及剖析查问。                                Omega 架构逻辑图偶数流解决零碎WASP既能够实现实时间断的流解决,也能够实现 Kappa 架构中的批流一体,但与 Kappa 架构不同的是,OushuDB 实时数仓存储来自 Kafka 的全副历史数据,而在 Kappa 架构中源端采集后通常存储在 Kafka 中。因而,当须要流解决版本变更的时候,流解决引擎不再须要拜访 Kafka,而是拜访实时数仓 OushuDB 取得所有历史数据,躲避了 Kafka 难以实现数据更新和纠错的问题,大幅提高效率。此外,整个服务层也能够在实时数仓中实现,而无需额定引入 MySQL、HBase 等组件,极大简化了数据架构。在 Omega 全实时架构的加持下,偶数率先实现了具备实时能力的湖仓一体,即实时湖仓。实时湖仓对立了湖仓市(数据湖、数仓、集市),防止数据孤岛的同时,极大晋升了企业实时数据分析能力,让企业在疾速更迭的商业环境中立于不败之地。                               Lambda、Kappa 与 Omega 架构比拟数据谈话,高性能OushuDB为企业保驾护航一个新的Omega架构来实现实时湖仓,的确会令整个行业眼前一亮,但其性能到底如何,与市面常见数据库产品的性能相比,是否能交出称心的答卷呢?为了更直观的比拟OushuDB的查问能力,咱们用规范TPC-H来对OushuDB和其余出名的MPP数据库产品Greenplum、ClickHouse进行测试。TPC-H是美国交易解决效力委员会组织制订的用来模仿决策反对类利用的一个测试集,目前在学术界和工业界广泛采纳它来评估数据查询处理能力。咱们次要的评估指标是TPC-H包的22 个查问(Q1~Q22)各个查问的响应工夫,即从提交查问到后果返回所需工夫,咱们别离对不同平台进行单节点应用Scale为100的数据集进行测试。测试结果显示,OushuDB和Greenplum反对全面反对 TPC-H 的 22 条查问语句,ClickHouse 只反对其中的局部语句;在性能方面,OushuDB体现优良,总体性能在ClickHouse和Greenplum的5倍左右,很多查问工夫快一个数量级以上。       用户信赖,新锐准独角兽怀才不遇只管OushuDB只是一个诞生5年的云数据库,但OushuDB却是由国内顶尖工程师自主开发,其研发团队曾主导国内顶级的数据库开源我的项目,符合国家信创规范。偶数科技作为一家新兴的数据库公司,自2017年诞生以来,作为微软加速器和腾讯加速器成员企业,曾经取得世界顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资,并入选福布斯中国企业科技 50 强以及美国驰名商业杂志《快公司》中国最佳翻新公司 50 强。除了OushuDB,偶数科技的实时湖仓一体解决方案还蕴含自动化机器学习平台 LittleBoy 、数据分析与利用平台Kepler以及数据管理平台 Lava等多个产品, 深厚的研发实力和优良的产品性能吸引了宽泛的出名用户群,目前已在金融、电信、制作、公安、能源和互联网等行业失去宽泛的部署和利用。                                    ...

August 18, 2022 · 1 min · jiezi

关于olap:Apache-Doris-助力网易严选打造精细化运营-DMP-标签系统

导读:如果说互联网的上半场是粗狂经营,那么在下半场,精细化经营将是短暂的主题,有数据分析能力能力让用户失去更好的体验。当下比拟典型的剖析形式是构建用户标签零碎,本文将由网易严选分享 DMP 标签零碎的建设以及 Apache Doris 在其中的利用实际。 作者|刘晓东 网易严选资深开发工程师 如果说互联网的上半场是粗狂经营,因为有流量红利不须要思考细节。那么在下半场,精细化经营将是短暂的主题,有数据分析能力能力让用户失去更好的体验。当下比拟典型的剖析形式是构建用户标签零碎,从而精准地生成用户画像,晋升用户体验。明天分享的主题是网易严选 DMP 标签零碎建设实际,次要围绕上面五点开展: 平台总览标签生产 :标签圈选&生产链路标签存储:存储形式&存储架构演进高性能查问将来布局平台总览DMP 作为网易严选的数据中台,向下连贯数据,向上赋能业务,承当着十分重要的基石角色。 DMP 的数据起源次要包含三大部分: 自营平台的 APP、小程序、PC 端等各端的业务日志网易团体外部共建的一些根底数据京东、淘宝、抖音等第三方渠道店铺的数据通过收集、荡涤,将以上数据造成数据资产积淀下来。DMP 在数据资产根底上造成了一套本人的标签产出、人群圈选和用户画像剖析体系,从而为业务提供撑持,包含:智能化的选品、精准触达以及用户洞察等。总的来说,DMP 零碎就是构建以数据为外围的标签体系和画像体系,从而辅助业务做一系列精细化的经营。 理解 DMP 零碎,先从以下几个概念开始。 标签:对于实体(用户、设施、手机号等)特色的形容,是一种面向业务的数据组织模式,比方应用:年龄段、地址、偏好类目等对用户实体进行刻画。人群圈选:通过条件组合从整体用户中圈选出一部分用户,具体就是指定一组用户标签和其对应的标签值,失去符合条件的用户人群。画像剖析:对于人群圈选后果,查看该人群的行为状况、标签散布。例如查看【城市为杭州,且性别为女性】的用户在严选 APP 上的行为门路、生产模型等。 严选标签零碎对外次要提供两大外围能力: 标签查问:查问特定实体指定标签的能力,罕用于根本信息的展现。人群圈选:分为实时和离线圈选。圈选后果次要用于:分组判断:判读用户是否在指定的一个或多个分组,资源投放、触点营销等场景应用较多。后果集拉取:拉取指定的人群数据到业务方零碎中,进行定制化开发。画像剖析:剖析特定人群的行为数据,生产模型等,进行更精密的经营。整体的业务流程如下: 首先定义标签和人群圈选的规定;定义出形容业务的 DSL 之后,便能够将工作提交到 Spark 进行计算;计算实现之后,将计算结果存储到 Hive 和 Doris;之后业务不便能够依据理论业务需要从 Hive 或 Doris 中查问应用数据。 DMP 平台整体分为计算存储层、调度层、服务层、和元数据管理四大模块。 所有的标签元信息存储在源数据表中;调度层对业务的整个流程进行任务调度:数据处理、聚合转化为根底标签,根底标签和源表中的数据通过 DSL 规定转化为可用于数据查问的 SQL 语义,由调度层将任务调度到计算存储层的 Spark 进行计算,将计算结果存储到 Hive 和 Doris 中。服务层由标签服务、实体分组服务、根底标签数据服务、画像剖析服务四局部组成。 标签的生命周期蕴含5个阶段: 标签需要:在此阶段,经营提出标签的需要和价值预期,产品评估需要合理性以及紧迫性。排期生产:此阶段须要数据开发梳理数据,从 ods 到 dwd 到 dm 层整个链路,依据数据建设模型,同时数据开发须要做好品质监控。人群圈选:标签生产进去之后进行利用,圈选出标签对应的人群。精准营销:对圈选进去的人群进行精准化营销。成果评估:最初产品、数据开发和经营对标签使用率、应用成果进行成果评估来决定后续对标签进行改良或降级。总的来说,就是以业务增长为指标,围绕标签的生命周期,投入正当的资源,最大化经营成果。 标签生产接下来介绍标签生产的整个过程。 标签的数据分层: 最上层是 ods 层,包含用户登录日志、埋点记录日志、交易数据以及各种数据库的 Binlog 数据。对 ods 层解决后的数据达到 dwd 明细层,包含用户登录表、用户流动表、订单信息表等。dwd 层数据聚合后到 dm 层,标签全副基于 dm 层数据实现。目前咱们从原始数据库到 ods 层数据产出曾经齐全自动化,从 ods 层到 dwd 层实现了局部自动化,从 dwd 到 dm 层有一部分自动化操作,但自动化水平还不高,这部分的自动化操作是咱们接下来的工作重点。 ...

August 16, 2022 · 3 min · jiezi

关于olap:如何构建面向海量数据高实时要求的企业级OLAP数据引擎

在字节跳动各产品线飞速成长的过程中,对数据分析能力也提出了更高的要求,现有的支流数据分析产品都没方法齐全满足业务要求。因而,字节跳动在ClickHouse引擎根底上重构了技术架构,实现了云原生环境的部署和运维治理、存储计算拆散、多租户治理等能力,推出了云原生数据仓库ByteHouse。在性能、可扩展性、稳定性、可运维性以及资源利用率方面都实现了微小晋升,可能很好的满足字节跳动数据量极大、实时性要求极高、场景丰盛的业务需要。咱们能够从上面几个方面意识ByteHouse: 极致性能在连续了ClickHouse单表查问弱小性能的同时,新增了自研的查问优化器,在多表关联查问和简单查问场景下性能晋升若干倍,实现了在各类型查问中都达到极致性能。 新一代MPP架构,存算拆散应用旧式架构,Shared-nothing的计算层和Shared-everything的存储层,能够性能损耗很小的状况下,实现存储层与计算层的拆散,独立按需扩缩容。 资源隔离,读写拆散对硬件资源进行灵便切割调配,按需扩缩容。资源无效隔离,读写离开资源管理,工作之间互不影响,杜绝了大查问打满所有资源拖垮集群的景象。 丰盛性能ByteHouse提供客户丰盛的企业级能力,如:兼容ANSI-SQL 2011规范、反对多租户、库表资产治理、基于角色的权限治理以及多样的性能诊断工具等。 ByteHouse架构设计ByteHouse整体架构图 云原生数据仓库ByteHouse总体架构图如上图所示,设计指标是实现高扩展性、高性能、高可靠性、高易用性。从下往上,总体上分服务层、计算层和存储层。 服务层服务层包含了所有与用户交互的内容,包含用户治理、身份验证、查问优化器,事务管理、平安治理、元数据管理,以及运维监控、数据查问等可视化操作性能。服务层次要包含如下组件: 资源管理器资源管理器(Resource Manager)负责对计算资源进行对立的治理和调度,可能收集各个计算组的性能数据,为查问、写入和后台任务动态分配资源。同时反对计算资源隔离和共享,资源池化和弹性扩缩等性能。资源管理器是进步集群整体利用率的外围组件。 服务节点服务节点(CNCH Server)能够看成是Query执行的master或者是coordinator。每一个计算组有1个或者多个CNCH Server,负责承受用户的query申请,解析query,生成逻辑执行打算,优化执行打算,调度和执行query,并将最终后果返回给用户。计算组是 Bytehouse 中的计算资源集群,可按需进行横向扩大。服务节点是无状态的,意味着用户能够接入任意一个服务节点(当然如果有须要,也能够隔离开),并且能够程度扩大,意味着平台具备反对高并发查问的能力。 元数据服务元数据服务(Catalog Service)提供对查问相干元数据信息的读写。Metadata次要包含2局部:Table的元数据和Part的元数据。表的元数据信息次要包含表的Schema,partitioning schema,primary key,ordering key。Part的元数据信息记录表所对应的所有data file的元数据,次要包含文件名,文件门路,partition, schema,statistics,数据的索引等信息。元数据信息会长久化保留在状态存储池外面,为了升高对元数据库的拜访压力,对于拜访频度高的元数据会进行缓存。元数据服务本身只负责解决对元数据的申请,本身是无状态的,能够程度扩大。 平安治理权限管制和平安治理,包含入侵检测、用户角色治理、受权治理、拜访白名单治理、平安审计等性能。 计算层通过容器编排平台(如 Kubernetes)来实现计算资源管理,所有计算资源都放在容器中。计算组是计算资源的组织单位,能够将计算资源按需划分为多个虚构集群。每个虚构集群里蕴含0到多台计算节点,可依照理论资源需求量动静的扩缩容。计算节点次要承当的是计算工作,这些工作能够是用户的查问,也能够是一些后台任务。用户查问和这些后台任务,能够共享雷同的计算节点以进步利用率,也能够应用独立的计算节点以保障严格的资源隔离。计算组是无状态的,能够疾速程度扩大。 存储层采纳HDFS或S3等云存储服务作为数据存储层。用来存储理论数据、索引等内容。数据表的数据文件存储在远端的对立分布式存储系统中,与计算节点拆散开来。底层存储系统可能会对应不同类型的分布式系统。例如HDFS,Amazon S3, Google cloud storage,Azure blob storage,阿里云对象存储等等。底层存储是人造反对高可用、容量是有限扩大的。不同的分布式存储系统,例如S3和HDFS有很多不同的性能和不一样的性能,会影响到咱们的设计和实现。例如HDFS不反对文件的update, S3 object move操作时重操作须要复制数据等。通过存储的服务化,计算层能够反对ByteHouse本身的计算引擎之外,未来还能够便捷地对接其余计算引擎,例如Presto、Spark等。数据导入导出ByteHouse包含一个数据导入导出(Data Express)模块,负责数据的导入导出工作。Data Express模块架构图Data Express 为数据导入/导出作业提供工作流服务和疾速配置模板,用户能够从提供的疾速模板创立数据加载作业。DataExpress 利用 Spark 来执行数据迁徙工作。次要模块:   JobServer 导入模板导出模板JobServer 治理所有用户创立的数据迁徙作业,同时运行内部事件触发数据迁徙工作。启动工作时,JobServer 将相应的作业提交给 Spark 集群,并监控其执行状况。作业执行状态将保留在咱们的元存储中,以供 Bytehouse 进一步剖析。ByteHouse反对离线数据导入和实时数据导入。离线导入离线导入数据源: Object Storage:S3、OSS、MinioHive (1.0+)Apache Kafka /Confluent Cloud/AWS Kinesis本地文件RDS离线导入实用于心愿将已筹备好的数据一次性加载到 ByteHouse 的场景,依据是否对指标数据表进行分区,ByteHouse 提供了不同的加载模式: 全量加载:全量将用最新的数据替换全表数据。增量加载:增量加载将依据其分区将新的数据增加到现有的指标数据表。ByteHouse 将替换现有分区,而非进行合并。反对的文件类型ByteHouse的离线导入反对以下文件格式:Delimited files (CSV, TSV, etc.)Json (multiline)AvroParquetExcel (xls)实时导入ByteHouse 可能连贯到 Kafka,并将数据继续传输到指标数据表中。与离线导入不同,Kafka 工作一旦启动将继续运行。ByteHouse 的 Kafka 导入工作可能提供 exactly-once 语义。您能够进行/复原生产工作,ByteHouse 将记录 offset 信息,确保数据不会失落。ByteHouse 在流式导入中反对以下音讯格局: ...

July 25, 2022 · 1 min · jiezi

关于olap:受美制裁俄罗斯-ClickHouse-能否扛起数据库大旗

随着俄乌抵触的继续,包含不少巨头在内的二十余家科技公司暂停了俄罗斯的所有服务。一时间,人们对俄罗斯科技实力,尤其是根底软件的程度分外关注。通过观察作为外围根底软件之一的数据库管理系统,咱们能够对俄罗斯技术实力略知一二。 在寰球出名的数据库风行度排名榜 DB-Engines 上,俄罗斯有 7 款产品上榜,其中排名第一的 ClickHouse 凭借其优异的性能体现目前位列 DB-Engines 榜单 46 名。 大数据畛域从业者对 ClickHouse 应该十分相熟了。这个最后由俄罗斯的 Yandex 公司研发并开源的数据仓库,以单表查问快名闻遐迩,一改传统 Hadoop 技术栈“笨、重、慢”的特点。ClickHouse 绝对于 Hadoop 在性能方面有极大晋升,也因而成为寰球很多互联网公司数据分析的不二抉择。 那么 ClickHouse 到底实力如何?在当今的大背景下还是否扛起俄罗斯数据库大旗?明天,咱们通过和国产数据库新秀的 OushuDB 进行比照来一窥 ClickHouse 真正实力。让咱们刮目相待! 对于OushuDBOushuDB 由偶数科技自主开发,偶数外围研发团队曾主导国内顶级的数据库开源我的项目。OushuDB 实现了高弹性、高性能、强扩展性、强兼容性等下层技术的改革,帮忙企业轻松构建外围数仓、数据集市、实时数仓以及湖仓一体数据平台。 OushuDB vs. ClickHouse,TPC-H 测一测为了更直观的比拟 OushuDB 与 ClickHouse 的查问能力,咱们用国内通用的数据库测试规范 TPC-H 对 OushuDB 和 ClickHouse 进行测试。TPC-H 是美国交易解决效力委员会 (TPC, Transaction Processing Performance Council) 组织制订的用来模仿决策反对类利用的一个测试集,目前在学术界和工业界广泛采纳它来评估数据查询处理能力。 TPC-H 包含 22 个查问 (Q1~Q22),咱们次要的评估指标是各个查问的响应工夫,即从提交查问到后果返回所需工夫,咱们对两个平台在单节点环境和多节点(6 点)环境上别离运行这 22 条查问语句,来比照剖析两者的数据仓库性能反对与查问性能差别。 测试后果在可进行比拟的查问语句中,OushuDB 单节点性能是 ClickHouse 的 5 倍以上,多节点在 ClickHouse 的 2 倍以上,其中 Query 3 快了 21 倍。OushuDB 性能劣势显著。 ...

July 12, 2022 · 2 min · jiezi

关于olap:Spark-对战-OushuDB-究竟是谁快出几十倍

随着互联网技术的一直倒退,各行各业的数据处理量一劳永逸,Hadoop 作为一项革命性的技术提供了解决海量数据的能力,随之而来的Spark又大大晋升了 Hadoop 的计算能力,解决了Hadoop 的性能问题,受到了大数据行业的热捧。但到了2022年,Spark仍然是大数据行业的最佳抉择吗? Hadoop 生态系统通过多年的倒退,曾经在世界范畴内宽泛的采纳,许多企业曾经搭建了基于Hadoop生态圈的大数据平台,并且尝试更加深刻的利用,比方数据仓库迁入的尝试,作为剖析型场景的次要组件Hive与Spark表演了次要的角色。 Hadoop上的SQL反对一开始是Apache Hive,Hive自带的计算引擎是面向磁盘的MapReduce,受限于磁盘读/写性能和网络I/O性能的束缚,在解决迭代计算、实时计算、交互式数据查问等方面并不高效,其次要实用场景是批处理模式。针对这一有余,Spark将数据存储在内存中并基于内存进行计算是一个无效的解决路径。Spark 容许将两头输入和后果存储在内存中,节俭了大量的磁盘 IO。并且应用 DAG 调度程序,查问优化程序和物理执行引擎,实现批量和流式数据的高性能。同时 Spark 本身的 DAG 执行引擎也反对数据在内存中的计算。 偶数科技研发的数据仓库OushuDB, 次要依靠云原生个性、计算存储拆散架构、强事务个性、残缺SQL规范反对、高性能并行执行能力等一系列底层技术的改革,从而实现高弹性、高性能、强扩展性、强兼容性等下层技术的改革,最终帮忙企业有效应对大规模、强敏态、高时效、智能化的趋势。 这次咱们将对OushuDB 与Spark 3.0的性能做一次比照。 数据查问哪家强?为了更直观的比拟Spark与OushuDB的查问能力,咱们用TPC-H(商业智能计算测试)来对OushuDB和Spark进行测试,TPC-H是美国交易解决效力委员会(TPC,Transaction Processing Performance Council) 组织制订的用来模仿决策反对类利用的一个测试集,目前在学术界和工业界广泛采纳它来评估数据查询处理能力。 国内通用的数据库测试规范TPC-H包含 22 个查问(Q1~Q22),咱们次要的评估指标是各个查问的响应工夫,即从提交查问到后果返回所需工夫,咱们别离对两个平台进行单节点应用Scale为100的数据集进行测试。 测试环境服务器配置CPU:2颗10核Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz,超线程40内存:256GB硬盘:4*1000GB SSD操作系统:Centos 7.4 比照软件版本OushuDB 4.0Spark 3.0 数据库参数Spark OushuDB注:为测试在同一资源程度上,并且更靠近生产理论,core与内存设置雷同,别离是16 core与1gb 表属性注:数据分布,OushuDB能够表级设置及控制数据散布“桶数”,间接影响资源应用 数据生成形式提前用dbgen生成TPCH测试用文本数据;OushuDB采纳内部表并行导入,并进行Analyze。OushuDB采纳可写内部表将导入的数据写入指定的HDFS目录,供Spark导入数据。 Spark建设内部表,指向OushuDB写出HDFS文件,将数据导入。 运行后果比拟 总结Spark新的自适应查问执行(AQE)框架只在某些场景晋升了Spark性能,基于这次TPC-H测试因为新SIMD执行器的劣势,OushuDB全面性能超过Spark最大相差55倍,总体(22查问个)性能8倍以上。在各行业理论利用场景进行大规模数据查问的过程中, OushuDB的劣势就相当显著了。 OushuDB作为一款高性能云数据库,反对拜访规范的ORC文件,并且具备高可扩大,遵循ANSI-SQL规范,具备极速执行器,提供PB级数据交互式查问能力,比传统数仓/MPP快5-10倍,比Hadoop SQL引擎要快5-30倍。OushuDB同时通过计算存储拆散架构解决了传统数据仓库高老本、高门槛、难保护、难扩大的问题,能够让企业用户轻松构建外围数仓、数据集市、实时数仓以及湖仓一体数据平台,是当今的企业构建数据湖仓的不二抉择。

July 12, 2022 · 1 min · jiezi

关于olap:应用实践-10-亿数据秒级关联货拉拉基于-Apache-Doris-的-OLAP-体系演进附-PPT-下载

导读:本文是货拉拉大数据引擎负责人杨秋吉在 DataFunSummit 2022 多维分析架构峰会上的演讲分享,分享的主题是《货拉拉基于 Apache Doris 的 OLAP 体系演进及建设办法》,具体解说了货拉拉从 OLAP1.0 到 3.0 的演进过程,其中不乏有值得借鉴的方法论以及粗浅的技术思考,心愿能对大家有所帮忙。 分享人|货拉拉大数据引擎负责人 杨秋吉 业务背景货拉拉成立于 2013 年,成长于粤港澳大湾区,是一家从事同城、跨城货运、企业版物流服务、搬家、汽车销售及车后市场服务的互联网物流公司。截至 2022 年 4 月,货拉拉的业务范围曾经笼罩了国内 352 座城市,月活司机达到 58 万,月活用户达到 760 万,蕴含 8 条以上的业务线。 货拉拉大数据体系为撑持公司业务,当初曾经成立三个 IDC 集群、领有上千台规模的机器数量,存储量达到了 20PB、日均工作数达到了 20k 以上,并且还处在快速增长的过程中。 大数据体系货拉拉大数据体系从下往上分为 5 层,最上面的是根底层和接入层,这两层次要会提供根底数据的存储、计算以及集群的治理性能。在根底层和接入层之上是平台层和数仓。在平台层之中蕴含了数据研发平台和数据治理平台,基于平台层的能力和数据仓库的数据体系,在这之下面蕴含了含有业务属性的服务层和应用层。整个体系自下而上相互支持,实现反对业务和赋能业务的能力。 图1.1 货拉拉大数据体系 数据处理流货拉拉典型的数据处理流,能够分成数据集成、采集、数据的存储计算、数据服务四局部,同时也蕴含了实时、离线以及在线三大业务场景。 图1.2 货拉拉大数据数据流 在数据采集阶段会存在实时采集和离线采集两条路线。 实时采集比拟典型的场景为用户端上埋点会间接同步到大数据平台做存储,供后续的在线和离线计算应用。离线的数据次要是来自于业务方的数据库,会通过天或者是小时定期采集到大数据存储中,以供后续应用。两头是数据的存储和计算阶段。在离线场景中会通过对数据 ETL 之后转换为结构数仓的分层体系。实时比拟典型的场景为数据在通过 Flink 的解决后会间接落在线存储系统,相似于 HBase 和 OLAP 等等,为后续的业务零碎提供数据服务。 OLAP 演进概览货拉拉从 2021 年开始进行 OLAP 的技术钻研,截至目前曾经经验 3 个阶段: 2021 年上半年为货拉拉的 OLAP1.0 阶段,这个阶段咱们次要是反对公司的罗盘业务,咱们引入的是可能提供较好的单表根据和查问能力的 Apache Druid 引擎。2021 年下半年为货拉拉的 OLAP2.0 阶段,咱们反对了智能定位工具,这个阶段引入了够提供单表明细查问,并且还有较高的压缩率 ClickHouse。往年为货拉拉的 OLAP3.0 阶段,随同着公司业务需要的一直增多,咱们也会须要用到多数据源的关联剖析。基于此,因为 Apache Doris 具备大表关联剖析的能力,咱们引入了 Apache Doris 引擎。 ...

June 28, 2022 · 4 min · jiezi