Hadoop 框架学习笔记

  • 大数据技术解决什么问题?

    次要解决海量数据存储和计算。

  • Hadoop的狭义和广义之分?

    广义:Hadoop 由三局部组成:HDFS:分布式文件系统存储 MapReduce:分布式离线计算框架 YARN:资源调度框架

    狭义:不仅是Hadoop框架,之外还有周边框架,比方 Flume:日志数据采集;Sqoop:关系型数据库的采集、导出;Hive:深度依赖Hadoop框架实现计算(SQL) Hbase:大数据畛域的数据库

    狭义的Hadoop是一个大数据生态圈。

大数据简介

大数据的定义

大数据是指无奈在肯定工夫范畴内用惯例的软件工具进行捕获,治理和解决数据汇合,是须要新解决办法,能力有更强的决策力、洞察发现力和流程化能力的海量、高增长率和多样化的信息资产。

大数据的特点

大数据的特点能够用IBM 已经提出的 “5V”来形容,如下:

Volume Velocity Variety Veracity Value

  • 大量

    采集、存储和计算的数据量都十分大。

    计算机存储单位个别用B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB来示意,换算关系:

    1GB = 1024MB

    1TB = 1024GB

    1PB = 1024TB

    1EB = 1024PB

    1ZB = 1024EB

    1YB = 1024ZB

    1BB = 1024YB

    1NB = 1024BB

    1DB = 1024NB

以PB为例,PB级别数据量有多大?是怎么的一个概念?

如果手机播放MP3每分钟1MB,而1首歌曲的均匀时长为4分钟,那么1PB存量的歌曲能够寄存2000年。

1PB 相当于50%的全美学术研究图书馆书征询内容。

(1)1986年,寰球只有0.02EB也就是约21000TB的数据量

(2)2007 年,寰球也就280EB,也就是约300000000的数据量,翻了14000倍

(3)这些年,因为挪动互联网以及物联网的呈现,各种终端设备接入,各种业务模式的遍及,均匀每40个月,寰球的数据量就会翻倍!2012年,每天会产生2.5EB的数据量;

(4)基于IDC的报告预测,从2013年到2020年,寰球数据量会从4.42ZB猛减少到44ZB!到了2025年,寰球会有163ZB的数据量!寰球的数据量曾经大到爆炸了!传统的关系型数据库基本解决不了如此海量的数据!

  • 高速

    在大数据时代,数据的创立、存储、剖析都要求高速解决,比方电商网站的个性化举荐尽可能要求实时实现举荐,这也是大数据区别于传统的数据挖掘的显著特色。

  • 多样

    数据模式和起源多样化,包含结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的解决能力提出了更高的要求。

  • 实在

    确保数据的真实性,能力保障数据分析的正确性。

  • 低价值

    数据价值密度绝对较劲,或者说是浪里淘沙却又弥足珍贵。互联网倒退催生了大量的数据,信息海量,然而价值密度较低,如何联合业务逻辑并通过弱小的机会来进行机器算法来开掘数据价值,是大数据时代须要解决的问题,也是一个有难度的课题。

大数据的利用场景

随着大数据的倒退,大数据技术曾经广泛应用在泛滥行业,比方仓储物流、电商批发、汽车、电信、生物医学、人工智能、智慧城市等畛域。包含在疫情进攻中,大数据技术也施展了重要的作用。

Hadoop 简介

什么是Hadoop?

Hadoop 是一个适宜大数据的分布式存储和计算平台。

如前所属,广义说Hadoop就是一个框架平台,狭义上将Hadoop代表大数据的一个技术生态圈,包含很多其他软件框架。

Hadoop生态圈技术栈

  • Hadoop(HDFS+MapReduce+Yarn)
  • Hive数据仓库工具
  • HBase 海量列式非关系型数据库
  • Flume 数据采集工具
  • Sqoop ETL 工具
  • Kafka 高吞吐消息中间件

Hadoop 的起源

Hadoop 的倒退历程能够用如下过程概述:

Nutch -----> Google 论文(GFS、Mapreduce)

-----> Hadoop产生

------> 成为Apache顶级我的项目

------> Cloudera 公司成立(Hadoop疾速倒退)

  • Hadoop 最早起源于Nutch , Nutch 的创始人是Doug Cutting

    Nutch 是一个开源Java 实现的搜索引擎,它提供了咱们运行本人的搜索引擎所需的全副工具。包含全文搜寻和Web爬虫,然而随着抓取网页数量的减少,遇到了重大的可扩展性的问题--如何解决数十亿级别网页的存储和索引问题。

  • 2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决办法,GFS,用于解决海量网页的存储;Mapreduce,可用于解决海量网页的索引计算问题。

Google 的三篇论文(三驾马车)

GFS:Google的分布式文件系统(Google File System)

Mapreduce: Google的分布式计算框架

Bigtable:大型分布式数据库

倒退演变关系:

GFS-->HDFS

Google Mapreduce ---> Hadoop Mapreduce

Bigtable --> Hbase

  • 随后,Google颁布了局部GFS和Mapreduce思维的细节,Doug Cutting等人用2年的业余时间实现了GFS和Mapreduce机制,使Nutch性能飙升。
  • 2005 年,Hadoop作为Lucene的子项目Nutch的一部分引入Apache
  • 2006年,Hadoop从Nutch剥离进去独立
  • 2008年,Hadoop成为Apache的顶级我的项目

    Hadoop这个名字来源于Doug Cutting儿子的毛绒玩具象

Hadoop的特点

  • 扩容能力

Hadoop是在计算机集群内调配数据并实现计算工作,集群能够不便的扩大数千个节点;

  • 低成本

Hadoop 通过一般便宜的机器组成服务器集群来散发以及解决数据,以至于老本很低;

  • 高效率

Hadoop 能够在节点之前动静并行的挪动数据,使得速度十分快

  • 可靠性

能主动保护数据的多份复制,并且在工作失败后能主动的重新部署计算工作。

Hadoop的发行版本

目前Hadoop发行版本十分多,有Cloudera发行版、Hortonworks发行版、华为发行版、Intel 发行版,所有这些发行版均是基于Apache Hadoop 衍生进去的,之所以这么多版本,是由Apache Hadoop的开源协定决定的(任何人能够对其进行批改,并且作为开源或者商业产品公布/销售)

企业总次要用到的三个版本别离是:Apache Hadoop版本(最原始的,所有发行版均基于这个版本进行改良)、Cloudera版本(Cloudera's Distribution Including Apache Hadoop,简称"CDH")、Hortonworks版本(Hortonworks Data Platform,简称”HDP“)。

  • Apache Hadoop 原始版本

官网地址:http://hadoop.apache.org/

长处:领有全世界的奉献,代码更新比拟快

毛病:版本的降级,版本的保护,以及保护之间的兼容性,学习十分不便

Apache Hadoop所有软件的下载地址(包含各种历史版本):http://archive/apache.org/dist/

  • 软件免费版本CouderaManager CDH版本---生产环境应用

官网地址:http://ww.cloudera.com

Cloudera 次要是美国一家大数据公司在Apache开源的Hadoop版本上,通过本人的公司外部的各种补丁,实现版本之间的稳固运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的降级困惑,版本兼容性等各种问题,生产换寄给你强烈推荐应用。

  • 收费开源版本HortonWorks HDP版本 -- 生产环境应用

官网地址:http://hortonworks.com

hortonworks 次要是雅虎主导的Hadoop开发的副总裁,率领二十几个核心成员以Hortonworks,外围产品软件HDP(ambari),HDF收费开源,整套的web治理界面,供咱们能够通过web界面治理咱们的集群状态,web治理界面软件HDF网址:http://ambari.apache.org/

Apache Hadoop版本更迭

0.x 系列版本:Hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本

1.x系列版本:Hadoop版本当中的第二代开源版本,次要修复0.x版本的一些bug;

2.x系列版本:架构产生重大变动,引入了yarn平台等新个性

3.x系列版本:EC技术、YARN的时间轴服务新个性

Hadoop 的优缺点

Hadoop 的长处

  • Hadoop具备存储和解决数据能力的高可用性
  • Hadoop通过可用的计算机集群调配数据,实现存储和计算工作,这些集群能够不便的扩大到数以千计的节点中,具备高扩展性。
  • Hadoop可能在节点之间进行挪动数据,并保障各个节点的动态平衡,处理速度十分快,具备高效性。
  • Hadoop 可能主动存储数据的多个正本,并且可能主动将失败的工作冲洗调配,绝具备高容错性。

Hadoop 的毛病

  • Hadoop不适用于低提早的数据拜访
  • Hadoop不能高效存储大量小文件
  • Hadoop 不反对多用户写入并任意批改文件

● Spring事务的坑都给你总结好了!!!

● API网关正在经验身份危机

● 后端生成Token架构与设计详解

● Hadoop 框架学习笔记之整体认知

关注公众号,回复“spring”有惊喜!!!

如果资源对你有帮忙的话

本文由博客一文多发平台 OpenWrite 公布!