共计 2043 个字符,预计需要花费 6 分钟才能阅读完成。
Hadoop 是什么
1) Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
2)次要解决,海量数据的存储和海量数据的剖析计算问题。
3)狭义上来说,Hadoop 通常是指一个更宽泛的概念——Hadoop 生态圈。
Hadoop 倒退历史
1) Lucene 框架是 Doug Cutting 创始的开源软件,用 Java 书写代码,实现与 Google 相似的全文搜寻性能,它提供了全文检索引擎的架构,包含残缺的查问引擎和索引引擎。
Hadoop 创始人 Doug Cutting
2) 2001 年年底 Lucene 成为 Apache 基金会的一个子项目。
3)对于海量数据的场景,Lucene 面对与 Google 同样的艰难,存储数据艰难,检索速度慢。4)学习和模拟 Google 解决这些问题的方法︰微型版 Nutch。
5)能够说 Google 是 Hadoop 的思维之源 (Google 在大数据方面的三篇论文)
GFS –>HDFS
Map-Reduce -—>MR
BigTable —>HBase
6) 2003-2004 年,Google 公开了局部 GFS 和 MapReduce 思维的细节,以此为根底 Doug Cutting 等人用了 2 年业余时间实现了 DFS 和 MapReduce 机制,使 Nutch 性能飙升。
7) 2005 年 Hadoop 作为 Lucene 的子项目 Nutch 的一部分正式引入 Apache 基金会。
8)2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 别离被纳入到 Hadoop 我的项目中,Hadoop 就此正式诞生,标记着大数据时代降临。
9) 名字来源于 Doug Cutting 儿子的玩具大象。
Hadoop 三大发行版本
Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。
Apache 版本最原始(最根底)的版本,对于入门学习最好。
Cloudera 在大型互联网企业中用得较多。
Hortonworks 文档较好。
- Apache Hadoop
- Cloudera Hadoop
(1)2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,次要是包含反对、咨询服务、培训。
(2)2009 年 Hadoop 的创始人 Doug Cutting 也加盟 Cloudera 公司。Cloudera 产品次要为 CDH,Cloudera Manager,Cloudera Support
(3)CDH 是 Cloudera 的 Hadoop 发行版,齐全开源,比 Apache Hadoop 在兼容性,安全性,稳定性上有所加强。
(4)Cloudera Manager 是集群的软件散发及治理监控平台,大数据培训能够在几个小时内部署好一个 Hadoop 集群,并对集群的节点及服务进行实时监控。Cloudera Support 即是对 Hadoop 的技术支持。
(5)Cloudera 的标价为每年每个节点 4000 美元。Cloudera 开发并奉献了可实时处理大数据的 Impala 我的项目。
- Hortonworks Hadoop
官网地址:https://hortonworks.com/produ…
下载地址:https://hortonworks.com/downl…
(1)2011 年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建。
(2)公司成立之初就吸纳了大概 25 名至 30 名专门钻研 Hadoop 的雅虎工程师,上述工程师均在 2005 年开始帮助雅虎开发 Hadoop,奉献了 Hadoop80% 的代码。
(3)雅虎工程副总裁、雅虎 Hadoop 开发团队负责人 Eric Baldeschwieler 出任 Hortonworks 的首席执行官。
(4)Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是 100% 开源的产品,HDP 除常见的我的项目外还包含了 Ambari,一款开源的装置和管理系统。
(5)HCatalog,一个元数据管理系统,HCatalog 现已集成到 Facebook 开源的 Hive 中。Hortonworks 的 Stinger 开创性的极大地优化了 Hive 我的项目。Hortonworks 为入门提供了一个十分好的,易于应用的沙盒。
(6)Hortonworks 开发了很多加强个性并提交至外围骨干,这使得 Apache Hadoop 可能在包含 Window Server 和 Windows Azure 在内的 Microsoft Windows 平台上本地运行。定价以集群为根底,每 10 个节点每年为 12500 美元。
Hadoop 的劣势(4 高)
1) 高可靠性:Hadoop 底层保护多个数据正本,所以即便 Hadoop 某个计算元素或存储呈现故障,也不会导致数据的失落。
2)高扩展性: 在集群间分配任务数据,可不便的扩大数以千计的节点。
3)高效性: 在 MapReduce 的思维下,Hadoop 是并行工作的,以放慢工作处理速度。
4) 高容错性: 可能主动将失败的工作重新分配。