关于大数据:大数据学习路线图2023版自学路线

随着信息产业的迅猛发展，大数据利用逐步落地，行业人才需求量逐年扩充。大数据成为目前最具前景的高薪行业之一，大数据分析工程师、大数据开发工程师等大数据人才也成为市场紧缺型人才，薪资一涨再涨。很多人想要退出到大数据开发行列，却又不晓得怎么动手。接下来小编就给大家分享一份残缺的大数据学习路线，助力大家疾速入门！

第一阶段

为JAVASE+MYSQL+JDBC，次要学习一些Java语言的概念，如字符、流程管制、面向对象、过程线程、枚举反射等，学习MySQL数据库的装置卸载及相干操作，学习JDBC的实现原理以及Linux基础知识，是大数据刚入门阶段。

第二阶段为分布式实践简介，次要解说CAP实践、数据分布形式、一致性、2PC和3PC、大数据集成架构。波及的知识点有Consistency一致性、Availability可用性、Partition tolerance分区容忍性、数据量散布、2PC流程、3PC流程、哈希形式、一致性哈希等。

第三阶段为数据存储与计算（离线场景），次要解说协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。

第四阶段为数仓建设，次要解说数仓仓库的历史背景、离线数仓我的项目-伴我汽车（5T）架构技术解析、多维数据模型解决kylin（3.5T）部署装置、离线数仓我的项目-伴我汽车降级后退出kylin进行多维分析等；

第五阶段为分布式计算引擎。次要解说计算引擎、scala语言、spark、数据存储hbase、redis、kudu，并通过某p2p平台我的项目实现spark多数据源读写。

第六阶段为数据存储与计算（实时场景），次要解说数据通道Kafka、实时数仓druid、流式数据处理flink、SparkStreaming，并通过解说某交通大数让你能够将知识点死记硬背。

第七阶段为数据搜寻，次要解说elasticsearch，包含全文搜寻技术、ES安装操作、index、创立索引、增删改查、索引、映射、过滤等。

第八阶段为数据治理，次要解说数据规范、数据分类、数据建模、图存储与查问、元数据、血统与数据品质、Hive Hook、Spark Listener等。

第九阶段为BI零碎，次要解说Superset、Graphna两大技术，包含根本简介、装置、数据源创立、表操作以及数据摸索剖析。

第十阶段为数据挖掘，次要解说机器学习中的数学体系、Spark Mlib机器学习算法库、Python scikit-learn机器学习算法库、机器学习联合大数据我的项目。

大数据时代曾经降临，它将掀起滔天巨浪，如果你想把握这股浪潮，那就要及早动手。