关于大数据:11-Hadoop简介

本系列文章次要记录了在拉勾大数据课程中的学习心得

1.Hadoop是什么

Hadoop 是一个适宜大数据的分布式的存储和计算平台。
广义上说Hadoop就是一个框架平台。
狭义上讲Hadoop代表大数据的一个技术生态圈，包含很多其他软件框架

Hadoop生态圈技术栈
Hadoop（HDFS+MapReduce+Yarn）
Hive 数据仓库工具
HBase 海量列示非关系型数据库
Flume 数据采集工具
Sqoop ETL工具
Kafka 高吞吐消息中间件
……

2.Hadoop的起源

Hadoop最早起源于Nutch，Nutch 的创始人是Doug Cutting。

Nutch 是一个开源 Java 实现的搜索引擎。它提供了咱们运行本人的搜索引擎所需的全副工具。包含全文搜寻和Web爬虫，但随着抓取网页数量的减少，遇到了重大的可扩展性问题——如何解决数十亿网页的存储和索引问题。
2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。GFS，可用于解决海量网页的存储；MapReduce，可用于解决海量网页的索引计算问题。
随后，Google颁布了局部GFS和MapReduce思维的细节，Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。

Google的三篇论文（三驾马车）
GFS：Google的分布式文件系统（Google File System）
MapReduce：Google的分布式计算框架
BigTable：大型分布式数据库
倒退演变关系：
GFS —> HDFS
Google MapReduce —> Hadoop MapReduce
BigTable —> HBase
2005年，Hadoop 作为Lucene的子项目Nutch的一部分引入Apache
2006年，Hadoop从Nutch剥离进去独立
2008年，Hadoop成为Apache的顶级我的项目
Hadoop这个名字来源于Hadoop之父Doug Cutting儿子的毛绒玩具象

3.Hadoop的发行版本

目前Hadoop发行版十分多，有Cloudera发行版（CDH）、Hortonworks发行版、华为发行版、Intel发行版等，所有这些发行版均是基于Apache Hadoop衍生进去的，之所以有这么多的版本，是由Apache Hadoop的开源协定决定的（任何人能够对其进行批改，并作为开源或商业产品公布/销售）。
企业中次要用到的三个版本别离是：Apache Hadoop版本（最原始的，所有发行版均基于这个版本进行改良）、Cloudera版本（Cloudera’s Distribution Including Apache Hadoop，简称“CDH”）、Hortonworks版本（Hortonworks Data Platform，简称“HDP”）。

Apache Hadoop 原始版本
官网地址：http://hadoop.apache.org/
长处：领有全世界的开源奉献，代码更新版本比拟快
毛病：版本的降级，版本的保护，以及版本之间的兼容性，学习十分不便
Apache所有软件的下载地址（包含各种历史版本）：http://archive.apache.org/dist/
软件免费版本ClouderaManager CDH版本 –生产环境应用
官网地址：https://www.cloudera.com/
Cloudera次要是美国一家大数据公司在Apache开源Hadoop的版本上，通过本人公司外部的各种补丁，实现版本之间的稳固运行，大数据生态圈的各个版本的软件都提供了对应的版本，解决了版本的降级艰难，版本兼容性等各种问题，生产环境强烈推荐应用
收费开源版本HortonWorks HDP版本–生产环境应用
官网地址：https://hortonworks.com/
hortonworks次要是雅虎主导Hadoop开发的副总裁，率领二十几个核心成员成立Hortonworks，外围产品软件HDP（ambari），HDF收费开源，并且提供一整套的web治理界面，供咱们能够通过web界面治理咱们的集群状态，web治理界面软件HDF网址（http://ambari.apache.org/）

4.Apache Hadoop版本迭代

0.x 系列版本：Hadoop当中最早的一个开源版本，在此基础上演变而来的1.x以及2.x的版本
1.x 版本系列：Hadoop版本当中的第二代开源版本，次要修复0.x版本的一些bug等
2.x 版本系列：架构产生重大变动，引入了yarn平台等许多新个性
3.x 版本系列：EC技术、YARN的时间轴服务等新个性

5.Hadoop的优缺点

Hadoop的长处

扩容能力 Hadoop是在计算机集群内调配数据并实现计算工作，集群能够不便的扩大到数以千计个节点
低成本 Hadoop通过一般便宜的机器组成服务器集群来散发以及解决数据，使得老本很低
高效率 Hadoop能够在节点之间动静并行的挪动数据，使得速度十分快
可靠性 能主动保护数据得多份复制，并且在工作失败后能主动的重新部署(redeploy)计算工作

Hadoop的毛病

Hadoop不适用于低提早数据拜访。
Hadoop不能高效存储大量小文件。
Hadoop不反对多用户写入并任意批改文件。

6.Apeche Hadoop框架的组成部分

Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块

Hadoop HDFS:(Hadoop Distribute File System）一个高牢靠、高吞吐量的分布式文件系统。通过数据切割、制作正本、扩散贮存来保证数据的安全可靠。
在HDFS文件系统中，存在如图所示的三个角色

NameNode（nn）：存储文件的元数据，比方文件名、文件目录构造、文件属性（生成工夫、正本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
SecondaryNameNode（2nn）：辅助NameNode更好的工作，用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据快照。
DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验
Hadoop MapReduce：一个分布式的离线并行计算框架
MapReduce计算 = Map阶段 + Reduce阶段
Map阶段就是“分”的阶段，并行处理输出数据；
Reduce阶段就是“合”的阶段，对Map阶段后果进行汇总；
Hadoop YARN：作业调度与集群资源管理的框架

Yarn中有如下几个次要角色：
ResourceManager(rm)：解决客户端申请、启动/监控ApplicationMaster、监控
NodeManager、资源分配与调度；
NodeManager(nm)：单个节点上的资源管理、解决来自ResourceManager的命令、解决来自
ApplicationMaster的命令；
ApplicationMaster(am)：数据切分、为应用程序申请资源，并调配给外部工作、工作监控与容
错。
Container：对工作运行环境的形象，封装了CPU、内存等多维资源以及环境变量、启动命令等任
务运行相干的信息。
ResourceManager是老大，NodeManager是小弟，ApplicationMaster是计算工作专员。
Hadoop Common：反对其余模块的工具模(Configuration、RPC、序列化机制、日志操作）

关于大数据:11-Hadoop简介

1.Hadoop是什么

2.Hadoop的起源

3.Hadoop的发行版本

4.Apache Hadoop版本迭代

5.Hadoop的优缺点

6.Apeche Hadoop框架的组成部分

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:11-Hadoop简介

1.Hadoop是什么

2.Hadoop的起源

3.Hadoop的发行版本

4.Apache Hadoop版本迭代

5.Hadoop的优缺点

6.Apeche Hadoop框架的组成部分

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复