乐趣区

hadoop大数据架构

概要

大数据是目前非常火热的词,基本各行各业都离不开大数据,利用金融数据分析一个公司的走势,利用监控数据可以抓住一个在逃逃犯。这些都是大数据应用程序。

大数据技术的相关概念

数据无处不在,各行各业无时无刻不在产生大量的数据。

如何保存和分析像海洋一样的数据,成为了一道难题。传统的单机存储存在存储容量小、读写速率慢、计算效率低下的缺点。Google 提出了一系列大数据技术。比如 MapReduce,bigtable,gfs。这些技术给大数据存储和分析带来了革命性的改变。首先降低了成本,数据能用 PC 机存储,而不是超级计算机。其次使用软件提高可靠性,而不是硬件。最后简化了分布式并行计算,不需要控制同步和数据交换。Google 只提供了一些论文,没有开源源代码。所以一个模仿 Google 的开源技术来了。就是 hadoop。

hadoop 是 apache 的顶级项目之一,主要负责分布式存储和分布式计算。hadoop 由两个部分组成:hdfs 存储海量数据,mapreduce 实现任务分解和处理。hadoop 可以实现以下功能:

为什么选择 hadoop, 首先扩展性强,可以通过简单地添加硬件实现,其次成本很低,不需要使用高端的机器,只用个人电脑就可以。最后 hadoop 的生态圈成熟,围绕 hadoop 产生了很多工具。

退出移动版