共计 1881 个字符,预计需要花费 5 分钟才能阅读完成。
就在不久前,整个数据世界还在满城风雨地探讨如何创立集中式数据存储,以最大限度地进步数据的可用性,从而达到高级剖析的目标。博客们大声疾呼拥护数据湖,反对组织良好的数据库,开源社区团结在 Hadoop 生态系统四周,大数据技术飞速发展。本文就这个情况回顾一下推动数据湖采纳的一些假如,并留神一下这些假如的稳定性。
假如 1: “ 数据存储很贵,所以建设属于本人的 Hadoop 数据湖,经济效益看起来更有吸引力。”
预先看来,这个假如如何?
能够必定的是,Hadoop 中每 GB 存储的 TCO 能够比传统 RDBMS 零碎的成本低 5% 甚至更低。然而,即便是最有教训的企业也很快理解到经营一个企业集群有多难。开源软件的不断更新,治理环境的技能稀缺,以及生态系统的绝对不成熟,都造成了难以治理的技术故障和依赖性。除此之外,一旦 Hadoop 实现了三次数据复制,管理员须要快照和副原本克服 Hadoop 更新的局限性,1TB 的 RDBMS 数据可能会在湖中变成 50TB。这些节省下来的钱就这么多了。
新兴的事实:云和云数据仓库
亚马逊、微软和谷歌急于用托管的、基于云的环境来填补这些生产力的空白,这些环境简化了治理,使数据科学家更快地进步生产力。接下来,生产模式取代了 Hadoop on-pre 环境的资本老本,这意味着人们不太违心简略地将所有大型数据集倾倒到一个地方环境中。相同,他们依据剖析须要加载数据。因而,这就产生了从大型的 on-prem 数据湖转移到小型的基于云的数据池塘的成果,这些数据池塘是为目标而建设的。再进一步,新的云仓库通过基于 SQL 的工具使拜访和查问这些数据变得简略,这进一步向非技术消费者开释了数据的价值。
假如 2: “ 大数据太大了,搬不动。挪动一次数据,把电脑移到数据上 ”。
预先看来,这个假如是怎么的?
数据湖的一个要害假如是,网络和处理速度的限度意味着咱们无奈将日志文件等数据的大正本挪动到集群中进行数据分析。Hadoop 也是面向批处理的,这意味着这些类型数据的大批量解决是十分不切实际的。事实证明,数据复制和流媒体的改良,以及网络方面的微小收益,导致这种状况没有咱们设想的那么实在。
新兴的事实:数据虚拟化和流媒体
技术的改良意味着企业能够抉择如何拜访数据. 兴许,他们心愿将查问从事务性零碎卸载到云环境中;数据复制和流媒体当初是简略的解决方案。兴许,交易系统是为高性能查问而构建的;在这种状况下,数据虚拟化性能能够使该数据按需提供。因而,企业当初能够抉择让数据更多地按需提供给 DataOps 流程,这意味着并不总是须要将所有企业数据物理地集中在一个地位。
假如 3: “ 读时的数据湖模式将取代写时的数据仓库模式。”
预先看来,这个假如如何?
人们曾经厌倦了 IT 团队将 ETL 写入数据仓库所破费的工夫,并迫切希望简略地开释数据科学家对原始数据的解决。有两个次要的症结所在。首先,数据科学家往往不能轻易地找到他们要找的数据. 其次,一旦他们有了数据,剖析负责人很快就会发现,他们的 ETL 只是被数据纠缠工具所取代,因为数据迷信依然须要清理,如标准化和外键匹配。
新兴的事实:数据目录和数据经营
智能数据目录曾经成为寻找所需数据的要害。当初,企业正试图通过简略的解决方案,在工作场合建设起用户在家中享受的谷歌搜寻一样的搜寻形式,以查找和拜访数据,而不论保留数据的数据存储的物理地位在哪里。DataOps 流程也曾经呈现,它是建设基于畛域的数据集的一种形式,这些数据集通过精心布局和治理,能够实现最大的剖析生产力。因而,数据科学家应该可能轻松地找到并信赖他们用来发现新的见解的数据,通过三思而行的技术和流程的交融应该可能使数据管道和剖析管道疾速运行,以反对这些新发现。这个过程能够实现实时剖析。
在 Qlik 寻求现代化的数据分析架构时,这些要害的新兴事实是他们须要思考的重点:
- 基于云的利用和剖析架构
- 数据仓库 /RDBMS 构造在云中的从新崛起,以实现价值最大化(想想 Snowflake)。
- 数据流以缩小要害数据的提早
- 数据虚拟化,以缩小数据的复制,直到须要为止。
- 数据目录,认真盘点和治理企业数据的拜访。
- DataOps 流程的呈现,为数据和剖析管道发明了疾速上市的工夫。
对于 Qlik
Qlik 的愿景是一个数据素养的世界,每个人都能够应用数据来改善决策并解决他们最具挑战性的问题。只有 Qlik 提供端到端的实时数据集成和剖析解决方案,以帮忙组织拜访所有数据并将其转化为价值。慧都作为 Qlik 官网的中国合作伙伴,咱们为 Qlik 的中国用户提供产品受权与施行、定制剖析计划、技术培训等服务,旨在让中国企业的每个 Qlik 用户都能摸索出数据的价值,让企业造成剖析文化