关于oushudb-hawq:OushuDB-小课堂丨数据仓库简史

3次阅读

共计 3020 个字符,预计需要花费 8 分钟才能阅读完成。

我的博客行将同步至腾讯云开发者社区,邀请大家一起入驻:https://cloud.tencent.com/developer/support-plan?invite_code=…

数据仓库存储来自外部零碎和各种内部起源的数据。数据仓库旨在通过数据收集、整合、剖析和钻研来反对决策制定过程。它们可用于剖析特定主题畛域,例如“销售”,并且是古代剖析的重要组成部分 商业智能. 数据仓库的体系结构是在 1980 年代开发的,旨在帮忙将数据从操作系统转换为决策支持系统。

数据仓库能够是企业大型机服务器的一部分,但通常位于云端。

在数据仓库中,来自许多不同起源的数据被带到一个地位,而后转换为数据仓库能够解决和存储的格局。例如,企业存储无关其客户信息、产品、员工及其薪水、销售额和发票的数据。如果高层管理人员要求采取最新的老本削减措施,要取得答案可能须要剖析后面提到的所有数据。上面,咱们重点介绍从 1950 年代至今的数据仓库和数据存储的历史。

晚期数据存储
打孔卡是第一个用于存储计算机生成数据的解决方案。到 1950 年代,穿孔卡片 是美国政府和企业的重要组成部分。“Do not fold, spindle, or mulitate”正告最后来自穿孔卡片。直到 20 世纪 80 年代中期,打孔卡仍被常常应用。它们依然用于记录投票和标准化测试的后果。

从 1960 年代开始,“磁存储”逐步取代了穿孔卡片。磁盘存储是数据存储的下一个进化步骤。磁盘存储(硬盘驱动器和软盘)于 1964 年开始风行并容许间接拜访数据,显着改良了轻便的磁带。

IBM 次要负责磁盘存储的晚期倒退。他们创造了软盘驱动器和硬盘驱动器。他们还因当初反对其产品的几项改良而受到赞美。IBM 于 1956 年开始开发和制作磁盘存储设备。2003 年,他们卖了 他们的“硬盘”业务给了日立。

数据库管理系统
紧随磁盘存储之后的是一种名为 数据库管理系统(数据库管理系统)。1966 年,IBM 提出了本人的 DBMS,过后称为信息管理系统。DBMS 软件旨在治理“磁盘上的存储”并包含以下性能:

确定数据的正确地位
当多个数据单元映射到同一地位时解决抵触
容许删除数据
当存储的数据不适宜特定的、无限的物理地位时寻找空间
疾速查找数据(这是最大的益处)
网上申请
在 20 世纪 60 年代末和 70 年代初,在磁盘存储和 DBMS 软件风行之后不久,商业在线应用程序开始发挥作用。一旦意识到能够间接拜访数据,信息就开始在计算机之间共享。因而,有大量的商业利用能够利用于在线解决。一些例子包含:

索赔解决
银行柜员解决
主动柜员机 (ATM)
航空公司预订解决
批发销售点解决
制作管制解决
只管有这些改良,但查找特定数据可能很艰难,而且不肯定值得信赖。找到的数据可能基于“旧”信息。过后,公司生成的数据如此之多,以至于人们无奈置信他们所应用数据的准确性。

个人电脑和 4GL 技术
为了应答这种凌乱和不足信赖,个人电脑成为正当的、实用的解决方案。

集体计算机技术让任何人都能够在不便的时候带着他们的计算机工作和进行解决。这导致了集体计算机软件的呈现,并意识到集体计算机的所有者能够将他们的“集体”数据存储在他们的计算机上。随着工作文化的这种变动,人们认为可能不再须要集中的 IT 部门。

同时,开发并推广了一种称为 4GL 的技术。4GL 技术(在 1970 年代到 1990 年代开发)基于编程和零碎开发应该简单明了并且任何人都能够做到的理念。这种新技术也促使集中式 IT 部门崩溃。

4GL 技术和个人电脑解放了最终用户,使他们可能更多地管制计算机系统并疾速无效地查找信息。开释最终用户并容许他们拜访本人的数据的指标是一个十分受欢迎的提高。个人电脑和 4GL 在企业环境中迅速遍及。但一路上,意想不到的事件产生了。最终用户发现:

不正确的数据可能会产生误导。
不残缺的数据可能不是很有用。
旧数据是不可取的。
同一数据的多个版本可能会造成混同。
不足文件的数据值得狐疑。
关系数据库
关系数据库在 1980 年代开始风行。关系数据库 比他们的前辈显著更加用户敌对。结构化查询语言 (SQL) 是关系数据库管理系统 (RDBMS) 应用的语言。到 20 世纪 80 年代前期,许多企业曾经不再应用大型计算机。当初为员工调配了一台个人电脑,办公应用程序(Excel、Microsoft Word 和 Access)开始受到青眼。

对数据仓库的需要
1990 年代产生了重大的文化和技术改革。互联网人气飙升。因为新的自在贸易协定、计算机化、全球化和网络化,竞争加剧了。这种新的事实须要更大的商业智能,从而须要真正的数据仓库。在此期间,利用零碎的应用呈爆炸式增长。

到了 2000 年,很多企业发现,随着数据库和利用零碎的收缩,零碎集成度很差,数据不统一。他们发现他们正在接管和存储大量零散的数据。不知何故,须要整合数据以提供在竞争强烈、一直变动的寰球经济中进行决策所需的要害“业务信息”。

数据仓库由企业开发,用于整合他们从各种数据库中获取的数据,并帮忙反对他们的战略决策制订工作。

NoSQL 的应用
随着数据仓库的呈现,大数据的积攒开始倒退。这种积攒须要计算机、智能手机、互联网和物联网的倒退来提供数据。信用卡和社交媒体也施展了作用。

Facebook 于 2008 年开始应用 NoSQL 零碎。无 SQL 是一个“非关系型”数据库管理系统,应用相当简略的架构。在解决大数据时十分有用。NoSQL 数据库系统多种多样,尽管 SQL 零碎通常比 NoSQL 零碎具备更大的灵活性,但 SQL 中不足可扩展性(只管最近有所扭转)使 NoSQL 零碎具备决定性劣势。

非关系数据库(或 NoSQL)应用两个新鲜的概念:程度扩大(存储和工作的扩大)和打消应用结构化查询语言来安顿和组织数据的须要。NoSQL 数据库已逐步倒退为包含各种不同的模型。Cassandra 和 Hadoop 是 225 多种可用的 NoSQL 格调数据库中的两个例子。

数据仓库替代品
数据湖,除了 数据湖屋, 最近受到欢送。数据湖应用比数据仓库更灵便的构造来收集和存储数据。数据湖保留了数据的原始构造,能够作为大数据的检索和存储系统,实践上能够有限向上扩大。(“大数据”这个词曾经不再应用了,因为当初大数据很失常,不再是“大”了。)

数据集市是一个存储数据的区域,服务于特定的社区或工作组。它是一个具备固定数据的存储区域,并且被无意地置于组织内的一个部门的管制之下。

数据立方体是将数据存储在三个或更多维矩阵中的软件。数据中的任何转换都示意为已解决信息的表格和数组。在表格将数据字符串的行与数据类型的列匹配后,数据立方体而后穿插援用来自单个数据源或多个数据源的表格,减少每个数据点的细节。这种安顿使钻研人员可能找到比其余技术更深刻的见解。

大型组织中天然会呈现数据孤岛,每个部门都有不同的指标、职责和优先级。数据孤岛是固定数据的存储区域,这些区域由一个部门管制,并且为了隐衷和平安而与其余部门的拜访隔离开来。当部门相互竞争而不是共同努力实现独特指标时,也会产生数据孤岛。它们通常被认为是合作和高效业务实际的阻碍。

数据沼泽可能是由设计不当或被忽视的数据湖造成的。数据沼泽形容了未能正确记录存储的数据。这种状况使得数据难以无效地剖析和应用。尽管原始数据可能依然存在,但如果没有适当的上下文元数据,数据沼泽就无奈复原它。

我的博客行将同步至腾讯云开发者社区,邀请大家一起入驻:https://cloud.tencent.com/developer/support-plan?invite_code=…

正文完
 0