关于data:Data-Analysis-常见的组件

Flink: Apache Flink 是一个框架和分布式解决引擎，用于在无边界和有边界数据流上进行有状态的计算。

Spark: Apache Spark 是专为大规模数据处理而设计的疾速通用的计算引擎。

Streaming：Streaming基于开源Storm，是一个分布式、实时计算框架。

Storm：Storm是Twitter开源的分布式实时大数据处理框架

ClickHouse：(不基于Hadoop集群，可独立装置)列式数据库，次要用于实时数据仓库，这个也是基于内存的，特点就是快。

HBase:
HBase是一个分布式,版本化,面向列的开源数据库. 典型的NoSQL、分布式存储的数据库，速度够快。
HBase是基于Hdfs的列式存储的分布式数据库。

Hive: Hive软件自身承当的是SQL语法解析编译称为MapReduce的性能职责。
Hive是构建在Hadoop HDFS上的一个数据仓库工具，能够将结构化的数据文件映射为一张数据库表，并提供类SQL查问性能，
其本质是将SQL转换为MapReduce或者Spark工作进行运行,对存储在HDFS中的数据进行剖析和治理.

Hadoop大数据分析
HDFS：分布式文件存储系统，大数据环境的基石.（数据存储）
MapReduce(MR)：基于磁盘计算，次要用于大量数据的批处理计算.（计算）
YARN：用于作业调度和集群资源管理的框架。（资源调度）

Spark(RDD)：基于内存计算
SparkSQL：个别状况都是基于离线数据处理
Spark Streaming：个别状况是基于微批(实时)解决

Flink 流式计算引擎
Flink SQL：相似SparkSQL，能够写SQL，更快的应用批处理操作
Flink Streaming：流式数据，(开发思路)生产库产生数据一部分发送至kafka、一部分落库，后续Filnk对接kafka中的Topic ，
实时对kafka中数据进行去重、荡涤、汇总、计算，维度能够寄存至redis中。

关于data:Data-Analysis-常见的组件

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于data:Data-Analysis-常见的组件

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复