关于大数据:白话大数据-从买菜这件小事来聊聊数据仓库

43次阅读

共计 3380 个字符,预计需要花费 9 分钟才能阅读完成。

最近几个新入职的同学说被数据库,数据集市,数据仓库整的有点懵,不太分明它们之间的关系和区别。周末小编在买菜的过程中灵光一闪,决定从买菜这件小事来聊聊数据仓库。

当咱们想做饭时首先须要思考的就是想做的菜须要买什么资料,比方小炒肉,咱们须要青椒和猪肉。晚期的时候,咱们须要别离去蔬菜店买青椒,去肉铺买猪肉。这个过程咱们须要破费很多的工夫和精力,甚至有的时候跑了一大段路却发现店里没有我想买的货色,或者我买到了青椒,却发现肉铺没有肉卖了这种难堪的状况。起初逐步建设了农贸市场,由每个资料供货商供货,品种齐全,并依照肯定的规定摆放参差,咱们想要买什么菜依照指示牌就能够疾速地定位。

咱们能够把数据库比作一个个小店铺或者供货商,他们的强项在于事务处理,比方从农民伯伯手上去收买蔬菜,从屠宰厂零售猪肉等,将这些原材料汇总起来,至于怎么摆放供客户筛选,通过各种市场剖析去增长销量等不是他们善于的。数据库次要就是面向事务设计的,与 ERP,CRM,OA 等各类业务系统集成并实现业务过程数据的组织治理,他们解决的是根本的业务流程治理,通过数据的录入,删除,批改,查问及用户在业务零碎操作界面中做的增删改查操作,和业务零碎底层的数据库例如 MySQL,Oracle,SQL Server 实现数据的交互,数据也积淀在这些数据库中。

那聪慧的同学曾经晓得数据仓库其实就像“农贸市场”,把各种供货商手上的货源收集起来,依照肯定的规定摆放参差供客户筛选,同时能够通过整个农贸市场的销售经营状况进行一些粗疏的剖析,对整个市场有更好的理解,从而促销相应的洽购,销售策略等等。数据仓库是构建面向剖析的集成化数据环境,为企业提供决策反对,它出于剖析性报告和决策反对的目标而创立。

那什么是数据集市呢?数据集市能够比喻成各种专区,卖蔬菜农产品的,卖水产海鲜的,卖肉禽的等等。数据集市其实就是一个面向小型的部门或工作组级别的小型数据仓库,只专一于某一个方面的主题剖析。

图片起源:包图网

数据仓库自身并不生产数据,数据来源于内部,并且凋谢给内部利用,这也是为什么叫仓库,不叫工厂的起因。例如农贸市场并不种植蔬菜、养殖各种水产禽类,而是从各供货商获取资料。数据集市能够从本人的数据源获取数据,也能够从数据仓库中获取某一主题的数据。那从供货商到农贸市场的两头过程,其实就是所谓的“ETL”过程。ETL 就是 extract,Transform 和 load,指的是荡涤,转换和加载。咱们都晓得,供货商提供的货不是什么都要的,咱们要筛选出有价值的,滞销的种类,有些坏的,不陈腐的菜在进农贸市场的过程中就须要去除掉。而不同的供货商提供的货可能也存在一些一样的品种,那么在搬运到农贸市场中就须要做一些归类合并,依照更好的一种排列形式摆放参差供客户筛选。这个从供货商搬运,荡涤,转换,加载各种菜的过程就是 ETL 过程。在这个过程中,还波及到 ETL 的形式和频率。比方水产海鲜,很多都是速冻空运过去的,一些需求量比拟小的比方澳龙可能几天才送一次,而一些蔬菜是人们日常须要的,大都是周边蔬菜大棚产的,就会由货车每天运输进农贸市场。这些菜被运送到农贸市场后,会依据肯定的规定进行摆放让客户筛选。咱们能够依据不同的规定对这些菜进行治理,就像数据仓库的技术框架一样,咱们能够抉择个别的技术框架或者大数据技术框架,不同的抉择最终决定了咱们数据仓库的应用成果和投入老本。因而,数据仓库的实质还是一个数据库,它将各个异构的数据源,数据库的数据对立治理起来,并且实现了相应数据的剔除,格局转换,最终依照一种正当的建模形式来实现源数据的组织模式的转变,以更好的反对前端的可视化剖析。对于数据库和数据集市,数据仓库的区别,咱们简略做个总结一下:

个性 数据库 数据仓库 数据集市
出发点 面向事务处理设计 面向企业主题设计 面向部门或工作组主题
性能 捕捉和存储数据 剖析数据 剖析数据
数据起源 从单个零碎会获取 从多个数据源抽取和标准化 个别数据仓库
数据量 小 大 中小
存储内容 个别是在线数据 通常是历史数据 通常是历史数据
服务对象 业务人员 企业数据分析师、高层 部门数据分析师、领导

那数据仓库有什么价值呢?咱们先来说一个啤酒和尿布的故事。某超市货架上将啤酒与尿布放在一起售卖,这看似不相干的两个货色,为什么会放在一起售卖呢?原来在晚期的时候,该店面经理发现每周啤酒和尿布的销量都会有一次同比增长,但始终搞不清楚起因。起初商家通过对原始交易记录进行长期的详细分析后发现,很多年老的父亲在上班后给孩子买完尿布后,大都会顺便买一点本人爱喝的啤酒。于是该商家将尿布与啤酒摆放在一起售卖,通过它们的潜在关联性,互相促进销售。“啤酒与尿布”的故事一度成为营销界的神话。从下面能够看出,数据仓库除了将各数据源抽取集成到一起为数据管理和使用提供方便外,还能够依照不同的主题,将不同品种的数据进行归类组织,从多维度、多角度挖掘出一些有价值的货色,为了企业的剖析和决策提供数据根据。而个别数据库次要是面向事务处理,对数据分析性能不佳。此外,通常一个公司的业务零碎会有很多,不同的业务零碎往往治理部门不同,地区不同,各个数据库系统之间是互相隔离的,无奈从这些不同零碎的数据之间挖掘出关联关系。因而基于这些个性,数据仓库可用于人工智能、机器学习、危险管制、无人驾驶,数据化经营、精准经营,广告精准投放等场景。星环科技是国内当先的大数据根底软件公司,围绕数据的集成、存储、治理、建模、剖析、开掘和流通等数据全生命周期提供根底软件与服务,于 2016 年被国内出名剖析机构 Gartner 选入数据仓库及数据管理剖析魔力象限,位于远见者象限,在前瞻性维度上优于 Cloudera、Hortonworks 等美国支流大数据平台厂商,是 Gartner 公布该魔力象限以来首个进入该魔力象限的中国公司。Transwarp ArgoDB 是星环科技面向数据分析型业务场景的分布式闪存数据库产品,次要用于构建离线数据仓库、实时数据仓库、数据集市等数据分析系统。2019 年 8 月,ArgoDB 成为寰球第四个通过 TPC-DS 基准测试并通过 TPC 官网审计的数据库产品。

基于星环科技 ArgoDB 的数据仓库解决方案,通过对数据的荡涤、治理、建模、治理、剖析,造成数据仓库,为业务人员和管理人员提供管理决策服务。联合星环科技事件存储库 Event Store 和实时流计算引擎构建实时数据仓库,能够高速接入实时音讯数据(吞吐量能够达到数百万记录 / 秒),或者从交易型数据库实时同步数据到 ArgoDB,并对数据进行实时增删改查,以及高速的数据简单加工和统计分析。基于星环科技 ArgoDB 的数据仓库解决方案个性:

★多模型数据库

反对关系型、搜寻、文本、对象等数据模型

★残缺的 SQL 反对

反对残缺的 SQL 规范语法,兼容 Oracle、IBM DB2、Teradata 方言,兼容 Oracle 和 DB2 的存储过程,反对业务平滑迁徙

★反对超大规模集群

人造分布式架构,集群节点规模无下限,数据存储容量随节点规模线性扩容,可反对 2000+ 节点集群

★混合负载反对

反对实时数据与混合负载,反对海量数据的离线批量解决、在线实时剖析和多维度的简单关联统计等性能

★分布式事务保障

反对残缺 4 种事务隔离级别,保障事务在分布式系统下失常运行,高吞吐的,确保数据强统一,高可用的事务保障

典型案例

某农商行基于 ArgoDB 构建了新一代数据仓库,通过反对 Oracle 方言,极大升高了原先 Oracle 数据库业务数据和现有剖析型业务的迁徙老本。在剖析型业务方面以更低成本、更高性能残缺代替了传统 Oracle 数据仓库,确保剖析型业务与交易型业务的隔离。平台满足了行内包含历史明细数据查问、交易流水查问、实时交易大屏、大额交易揭示等十多个要害查问业务场景需要。针对各类剖析型业务的主动性能优化,保障了多用户高并发场景下的性能要求。联合实时流引擎 Slipstream,将源数据库 Oracle 的增量数据以秒级延时疾速同步到 ArgoDB 数仓,尤其确保了对源零碎数据有删改的经常性调账退款业务数据能即时反映在剖析零碎中。平台基于实时落库的业务数据实现了多流水表多维度数据整合的交互式简单剖析能力,将本来基于 Oracle 的离线级剖析能力晋升到秒级的准实时级交互式剖析能力,为行内将来多种简单的剖析型业务利用的拓展与更高的实时性要求打下松软的技术根底。

正文完
 0