关于大数据:大数据学习路线图2023版自学路线

随着信息产业的迅猛发展，大数据利用逐步落地，行业人才需求量逐年扩充。大数据成为目前最具前景的高薪行业之一，大数据分析工程师、大数据开发工程师等大数据人才也成为市场紧缺型人才，薪资一涨再涨。很多人想要退出到大数据开发行列，却又不晓得怎么动手。接下来小编就给大家分享一份残缺的大数据学习路线，助力大家疾速入门！

第一阶段

为 JAVASE+MYSQL+JDBC，次要学习一些 Java 语言的概念，如字符、流程管制、面向对象、过程线程、枚举反射等，学习 MySQL 数据库的装置卸载及相干操作，学习 JDBC 的实现原理以及 Linux 基础知识，是大数据刚入门阶段。

第二阶段为分布式实践简介，次要解说 CAP 实践、数据分布形式、一致性、2PC 和 3PC、大数据集成架构。波及的知识点有 Consistency 一致性、Availability 可用性、Partition tolerance 分区容忍性、数据量散布、2PC 流程、3PC 流程、哈希形式、一致性哈希等。

第三阶段为数据存储与计算（离线场景），次要解说协调服务 ZK(1T)、数据存储 hdfs(2T)、数据存储 alluxio(1T)、数据采集 flume、数据采集 logstash、数据同步 Sqoop(0.5T)、数据同步 datax(0.5T)、数据同步 mysql-binlog(1T)、计算模型 MR 与 DAG(1T)、hive(5T)、Impala(1T)、任务调度 Azkaban、任务调度 airflow 等。

第四阶段为数仓建设，次要解说数仓仓库的历史背景、离线数仓我的项目 - 伴我汽车（5T）架构技术解析、多维数据模型解决 kylin（3.5T）部署装置、离线数仓我的项目 - 伴我汽车降级后退出 kylin 进行多维分析等；

第五阶段为分布式计算引擎。次要解说计算引擎、scala 语言、spark、数据存储 hbase、redis、kudu，并通过某 p2p 平台我的项目实现 spark 多数据源读写。

第六阶段为数据存储与计算（实时场景），次要解说数据通道 Kafka、实时数仓 druid、流式数据处理 flink、SparkStreaming，并通过解说某交通大数让你能够将知识点死记硬背。

第七阶段为数据搜寻，次要解说 elasticsearch，包含全文搜寻技术、ES 安装操作、index、创立索引、增删改查、索引、映射、过滤等。

第八阶段为数据治理，次要解说数据规范、数据分类、数据建模、图存储与查问、元数据、血统与数据品质、Hive Hook、Spark Listener 等。

第九阶段为 BI 零碎，次要解说 Superset、Graphna 两大技术，包含根本简介、装置、数据源创立、表操作以及数据摸索剖析。

第十阶段为数据挖掘，次要解说机器学习中的数学体系、Spark Mlib 机器学习算法库、Python scikit-learn 机器学习算法库、机器学习联合大数据我的项目。

大数据时代曾经降临，它将掀起滔天巨浪，如果你想把握这股浪潮，那就要及早动手。