关于data:Data-Analysis-常见的组件

40次阅读

共计 814 个字符,预计需要花费 3 分钟才能阅读完成。

Flink: Apache Flink 是一个框架和分布式解决引擎,用于在无边界和有边界数据流上进行有状态的计算。

Spark: Apache Spark 是专为大规模数据处理而设计的疾速通用的计算引擎。

Streaming:Streaming 基于开源 Storm,是一个分布式、实时计算框架。

Storm:Storm 是 Twitter 开源的分布式实时大数据处理框架

ClickHouse:(不基于 Hadoop 集群,可独立装置)列式数据库,次要用于实时数据仓库,这个也是基于内存的,特点就是快。

HBase:
HBase 是一个分布式, 版本化, 面向列的开源数据库. 典型的 NoSQL、分布式存储的数据库,速度够快。
HBase 是基于 Hdfs 的列式存储的分布式数据库。

Hive: Hive 软件自身承当的是 SQL 语法解析编译称为 MapReduce 的性能职责。
Hive 是构建在 Hadoop HDFS 上的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供类 SQL 查问性能,
其本质是将 SQL 转换为 MapReduce 或者 Spark 工作进行运行, 对存储在 HDFS 中的数据进行剖析和治理.

Hadoop 大数据分析
HDFS:分布式文件存储系统,大数据环境的基石.(数据存储)
MapReduce(MR):基于磁盘计算,次要用于大量数据的批处理计算.(计算)
YARN:用于作业调度和集群资源管理的框架。(资源调度)

Spark(RDD):基于内存计算
SparkSQL:个别状况都是基于离线数据处理
Spark Streaming:个别状况是基于微批(实时) 解决

Flink 流式计算引擎
Flink SQL:相似 SparkSQL,能够写 SQL,更快的应用批处理操作
Flink Streaming:流式数据,(开发思路) 生产库产生数据一部分发送至 kafka、一部分落库,后续 Filnk 对接 kafka 中的 Topic,
实时对 kafka 中数据进行去重、荡涤、汇总、计算,维度能够寄存至 redis 中。

正文完
 0