关于java:Hadoop-框架学习笔记之整体认知

39次阅读

共计 3838 个字符,预计需要花费 10 分钟才能阅读完成。

Hadoop 框架学习笔记

  • 大数据技术解决什么问题?

    次要解决海量数据存储和计算。

  • Hadoop 的狭义和广义之分?

    广义:Hadoop 由三局部组成:HDFS:分布式文件系统存储 MapReduce:分布式离线计算框架 YARN:资源调度框架

    狭义:不仅是 Hadoop 框架,之外还有周边框架,比方 Flume:日志数据采集;Sqoop:关系型数据库的采集、导出;Hive:深度依赖 Hadoop 框架实现计算(SQL)Hbase:大数据畛域的数据库

    狭义的 Hadoop 是一个大数据生态圈。

大数据简介

大数据的定义

大数据是指无奈在肯定工夫范畴内用惯例的软件工具进行捕获,治理和解决数据汇合,是须要新解决办法,能力有更强的决策力、洞察发现力和流程化能力的海量、高增长率和多样化的信息资产。

大数据的特点

大数据的特点能够用 IBM 已经提出的“5V”来形容,如下:

Volume Velocity Variety Veracity Value

  • 大量

    采集、存储和计算的数据量都十分大。

    计算机存储单位个别用 B、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB 来示意,换算关系:

    1GB = 1024MB

    1TB = 1024GB

    1PB = 1024TB

    1EB = 1024PB

    1ZB = 1024EB

    1YB = 1024ZB

    1BB = 1024YB

    1NB = 1024BB

    1DB = 1024NB

以 PB 为例,PB 级别数据量有多大?是怎么的一个概念?

如果手机播放 MP3 每分钟 1MB,而 1 首歌曲的均匀时长为 4 分钟,那么 1PB 存量的歌曲能够寄存 2000 年。

1PB 相当于 50% 的全美学术研究图书馆书征询内容。

(1)1986 年,寰球只有 0.02EB 也就是约 21000TB 的数据量

(2)2007 年,寰球也就 280EB,也就是约 300000000 的数据量,翻了 14000 倍

(3)这些年,因为挪动互联网以及物联网的呈现,各种终端设备接入,各种业务模式的遍及,均匀每 40 个月,寰球的数据量就会翻倍!2012 年,每天会产生 2.5EB 的数据量;

(4)基于 IDC 的报告预测,从 2013 年到 2020 年,寰球数据量会从 4.42ZB 猛减少到 44ZB!到了 2025 年,寰球会有 163ZB 的数据量!寰球的数据量曾经大到爆炸了!传统的关系型数据库基本解决不了如此海量的数据!

  • 高速

    在大数据时代,数据的创立、存储、剖析都要求高速解决,比方电商网站的个性化举荐尽可能要求实时实现举荐,这也是大数据区别于传统的数据挖掘的显著特色。

  • 多样

    数据模式和起源多样化,包含结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的解决能力提出了更高的要求。

  • 实在

    确保数据的真实性,能力保障数据分析的正确性。

  • 低价值

    数据价值密度绝对较劲,或者说是浪里淘沙却又弥足珍贵。互联网倒退催生了大量的数据,信息海量,然而价值密度较低,如何联合业务逻辑并通过弱小的机会来进行机器算法来开掘数据价值,是大数据时代须要解决的问题,也是一个有难度的课题。

大数据的利用场景

随着大数据的倒退,大数据技术曾经广泛应用在泛滥行业,比方仓储物流、电商批发、汽车、电信、生物医学、人工智能、智慧城市等畛域。包含在疫情进攻中,大数据技术也施展了重要的作用。

Hadoop 简介

什么是 Hadoop?

Hadoop 是一个适宜大数据的分布式存储和计算平台。

如前所属,广义说 Hadoop 就是一个框架平台,狭义上将 Hadoop 代表大数据的一个技术生态圈,包含很多其他软件框架。

Hadoop 生态圈技术栈

  • Hadoop(HDFS+MapReduce+Yarn)
  • Hive 数据仓库工具
  • HBase 海量列式非关系型数据库
  • Flume 数据采集工具
  • Sqoop ETL 工具
  • Kafka 高吞吐消息中间件

Hadoop 的起源

Hadoop 的倒退历程能够用如下过程概述:

Nutch —–> Google 论文(GFS、Mapreduce)

​ —–> Hadoop 产生

​ ——> 成为 Apache 顶级我的项目

​ ——> Cloudera 公司成立(Hadoop 疾速倒退)

  • Hadoop 最早起源于 Nutch,Nutch 的创始人是 Doug Cutting

    Nutch 是一个开源 Java 实现的搜索引擎,它提供了咱们运行本人的搜索引擎所需的全副工具。包含全文搜寻和 Web 爬虫,然而随着抓取网页数量的减少,遇到了重大的可扩展性的问题 – 如何解决数十亿级别网页的存储和索引问题。

  • 2003 年、2004 年谷歌发表的两篇论文为该问题提供了可行的解决办法,GFS,用于解决海量网页的存储;Mapreduce,可用于解决海量网页的索引计算问题。

Google 的三篇论文(三驾马车)

GFS:Google 的分布式文件系统(Google File System)

Mapreduce:Google 的分布式计算框架

Bigtable:大型分布式数据库

倒退演变关系:

GFS–>HDFS

Google Mapreduce —> Hadoop Mapreduce

Bigtable –> Hbase

  • 随后,Google 颁布了局部 GFS 和 Mapreduce 思维的细节,Doug Cutting 等人用 2 年的业余时间实现了 GFS 和 Mapreduce 机制,使 Nutch 性能飙升。
  • 2005 年,Hadoop 作为 Lucene 的子项目 Nutch 的一部分引入 Apache
  • 2006 年,Hadoop 从 Nutch 剥离进去独立
  • 2008 年,Hadoop 成为 Apache 的顶级我的项目

    Hadoop 这个名字来源于 Doug Cutting 儿子的毛绒玩具象

Hadoop 的特点

  • 扩容能力

Hadoop 是在计算机集群内调配数据并实现计算工作,集群能够不便的扩大数千个节点;

  • 低成本

Hadoop 通过一般便宜的机器组成服务器集群来散发以及解决数据,以至于老本很低;

  • 高效率

Hadoop 能够在节点之前动静并行的挪动数据,使得速度十分快

  • 可靠性

能主动保护数据的多份复制,并且在工作失败后能主动的重新部署计算工作。

Hadoop 的发行版本

目前 Hadoop 发行版本十分多,有 Cloudera 发行版、Hortonworks 发行版、华为发行版、Intel 发行版,所有这些发行版均是基于 Apache Hadoop 衍生进去的,之所以这么多版本,是由 Apache Hadoop 的开源协定决定的(任何人能够对其进行批改,并且作为开源或者商业产品公布 / 销售)

企业总次要用到的三个版本别离是:Apache Hadoop 版本(最原始的,所有发行版均基于这个版本进行改良)、Cloudera 版本(Cloudera’s Distribution Including Apache Hadoop,简称 ”CDH”)、Hortonworks 版本(Hortonworks Data Platform,简称”HDP“)。

  • Apache Hadoop 原始版本

官网地址:http://hadoop.apache.org/

长处:领有全世界的奉献,代码更新比拟快

毛病:版本的降级,版本的保护,以及保护之间的兼容性,学习十分不便

Apache Hadoop 所有软件的下载地址(包含各种历史版本):http://archive/apache.org/dist/

  • 软件免费版本 CouderaManager CDH 版本 — 生产环境应用

官网地址:http://ww.cloudera.com

Cloudera 次要是美国一家大数据公司在 Apache 开源的 Hadoop 版本上,通过本人的公司外部的各种补丁,实现版本之间的稳固运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的降级困惑,版本兼容性等各种问题,生产换寄给你强烈推荐应用。

  • 收费开源版本 HortonWorks HDP 版本 — 生产环境应用

官网地址:http://hortonworks.com

hortonworks 次要是雅虎主导的 Hadoop 开发的副总裁,率领二十几个核心成员以 Hortonworks,外围产品软件 HDP(ambari),HDF 收费开源,整套的 web 治理界面,供咱们能够通过 web 界面治理咱们的集群状态,web 治理界面软件 HDF 网址:http://ambari.apache.org/

Apache Hadoop 版本更迭

0.x 系列版本:Hadoop 当中最早的一个开源版本,在此基础上演变而来的 1.x 以及 2.x 的版本

1.x 系列版本:Hadoop 版本当中的第二代开源版本,次要修复 0.x 版本的一些 bug;

2.x 系列版本:架构产生重大变动,引入了 yarn 平台等新个性

3.x 系列版本:EC 技术、YARN 的时间轴服务新个性

Hadoop 的优缺点

Hadoop 的长处

  • Hadoop 具备存储和解决数据能力的高可用性
  • Hadoop 通过可用的计算机集群调配数据,实现存储和计算工作,这些集群能够不便的扩大到数以千计的节点中,具备高扩展性。
  • Hadoop 可能在节点之间进行挪动数据,并保障各个节点的动态平衡,处理速度十分快,具备高效性。
  • Hadoop 可能主动存储数据的多个正本,并且可能主动将失败的工作冲洗调配,绝具备高容错性。

Hadoop 的毛病

  • Hadoop 不适用于低提早的数据拜访
  • Hadoop 不能高效存储大量小文件
  • Hadoop 不反对多用户写入并任意批改文件

● Spring 事务的坑都给你总结好了!!!

● API 网关正在经验身份危机

● 后端生成 Token 架构与设计详解

● Hadoop 框架学习笔记之整体认知

关注公众号,回复“spring”有惊喜!!!

如果资源对你有帮忙的话

本文由博客一文多发平台 OpenWrite 公布!

正文完
 0