关于data:Data-Analysis-常见的组件

Flink: Apache Flink 是一个框架和分布式解决引擎，用于在无边界和有边界数据流上进行有状态的计算。

Spark: Apache Spark 是专为大规模数据处理而设计的疾速通用的计算引擎。

Streaming：Streaming 基于开源 Storm，是一个分布式、实时计算框架。

Storm：Storm 是 Twitter 开源的分布式实时大数据处理框架

ClickHouse：(不基于 Hadoop 集群，可独立装置)列式数据库，次要用于实时数据仓库，这个也是基于内存的，特点就是快。

HBase:
HBase 是一个分布式, 版本化, 面向列的开源数据库. 典型的 NoSQL、分布式存储的数据库，速度够快。
HBase 是基于 Hdfs 的列式存储的分布式数据库。

Hive: Hive 软件自身承当的是 SQL 语法解析编译称为 MapReduce 的性能职责。
Hive 是构建在 Hadoop HDFS 上的一个数据仓库工具，能够将结构化的数据文件映射为一张数据库表，并提供类 SQL 查问性能，
其本质是将 SQL 转换为 MapReduce 或者 Spark 工作进行运行, 对存储在 HDFS 中的数据进行剖析和治理.

Hadoop 大数据分析
HDFS：分布式文件存储系统，大数据环境的基石.（数据存储）
MapReduce(MR)：基于磁盘计算，次要用于大量数据的批处理计算.（计算）
YARN：用于作业调度和集群资源管理的框架。（资源调度）

Spark(RDD)：基于内存计算
SparkSQL：个别状况都是基于离线数据处理
Spark Streaming：个别状况是基于微批(实时) 解决

Flink 流式计算引擎
Flink SQL：相似 SparkSQL，能够写 SQL，更快的应用批处理操作
Flink Streaming：流式数据，(开发思路) 生产库产生数据一部分发送至 kafka、一部分落库，后续 Filnk 对接 kafka 中的 Topic，
实时对 kafka 中数据进行去重、荡涤、汇总、计算，维度能够寄存至 redis 中。