公开音讯示意,Apache 软件基金会在短短 11 天内发表归档(attic)19 个开源我的项目,与大数据无关的有 13 个,其中 10 个我的项目属于 Hadoop 生态系统,包含 Sentry、Tajo 和 Falcon 等。
从整体上看,这次的行为无疑是一个“行业的分水岭”,能为从业者以及行业观察者提供一些趋势类的剖析与察看。与大数据无关的已报废的 Apache 我的项目包含如下:
- Apex:这个对立的平台面向大数据流和批处理,基于 Hadoop YARN。
- Chukwa:这个数据收集零碎用于监控大型分布式系统,基于 Hadoop 分布式文件系统(HDFS)。
- Crunch,它提供了一套框架,用于编写、测试和运行 MapReduce(包含 Hadoop MapReduce)管道。
- Eagle:这种剖析解决方案用于立刻发现大数据平台(包含 Hadoop)的平安和性能问题。
- Falcon:这种面向 Hadoop 的数据处理和治理解决方案,为数据挪动、数据管道协调、生命周期治理和数据发现而设计。
- Hama:这种用于大数据分析的框架在 Hadoop 上运行,基于 Bulk Synchronous Parallel 范式。
- Lens:提供对立剖析界面,将 Hadoop 与传统数据仓库集成起来,如同一个整体。
- Marmotta:一种面向链接数据的开放平台。
- Metron:专一于实时大数据安全。
- PredictionIO:这种机器学习服务器用于治理和部署生产就绪的预测服务。
- Sentry:这种零碎用于对 Apache Hadoop 中的数据和元数据执行细粒度受权。
- Tajo:Hadoop 上的大数据仓库零碎。
- Twill:应用 Hadoop YARN 的分布式性能以及相似运行中线程的编程模型。
Apache Hadoop ——“过气的宠儿”
依据行业媒体的表述,“Apache Hadoop 作为今日大数据畛域的宠儿,早已过气。”
十年前,入世两年的 Hadoop 顺利通过孵化器成为了 Apache 顶级我的项目,同年,第一个 Hadoop 商业化公司 Cloudera 成立;数年前,几乎就是 Hadoop 的主场,社区一直建设的新组件来扩大 Hadoop 的利用场景和可用性,其中有很多组件都胜利脱离 Hadoop 成为了 Apache 顶级我的项目,例如 HBase、Hive、ZooKeeper 等。
这也让 Hadoop 成为近十年来大数据畛域的典型代表。它陈腐,它开源,它催生出整个产品与供应商市场。
但 Hadoop 现在的“得宠”,可能和他抉择的路线无关,早在数年前便有行业媒体预言过他的倒退门路。
Hadoop 当初抉择了全面遍及的路线,从久远来看,这条路线有助于其进步本身影响力,但负面因素则是导致其逐步偏离当初做出的最具价值的承诺。尽管 Hadoop 我的项目依然又大又新,但现在的世界曾经疾速转至更器重速度、灵活性、宏观因素甚至是已知数量的阶段。
在大数据世界中,大量投资于 Apache Sentry 的供应商和客户当初将须要补救其损失并继续前进。用 ASF 的 Khudairi 的话来说:“每个我的项目背地的社区都会放弃其代码的生命力(’ 代码不会自行编写 ’),因而社区扭转我的项目步调的状况并不少见。”
换句话说,尖端技术令人兴奋,但晚期采纳者要提防:它也是易变的。社区经营人员须要留神并治理潜在的危险。
正如 Hadoop 的处境一样,它让人们理解到大数据中蕴藏的有限可能,但同时也揭示人们,没有任何繁多技术有能力重塑整个企业 IT 世界——至多当前不会再有。
局部参考资料;
1、https://www.zdnet.com/article…
2、https://www.datanami.com/2018…
3、云头条:《Hadoop 和大数据正式走到头了:13 个相干的 Apache 开源我的项目发表报废》