乐趣区

关于大数据:大数据学习路线图2023版自学路线

随着信息产业的迅猛发展,大数据利用逐步落地,行业人才需求量逐年扩充。大数据成为目前最具前景的高薪行业之一,大数据分析工程师、大数据开发工程师等大数据人才也成为市场紧缺型人才,薪资一涨再涨。很多人想要退出到大数据开发行列,却又不晓得怎么动手。接下来小编就给大家分享一份残缺的大数据学习路线,助力大家疾速入门!

第一阶段

为 JAVASE+MYSQL+JDBC,次要学习一些 Java 语言的概念,如字符、流程管制、面向对象、过程线程、枚举反射等,学习 MySQL 数据库的装置卸载及相干操作,学习 JDBC 的实现原理以及 Linux 基础知识,是大数据刚入门阶段。

第二阶段为分布式实践简介,次要解说 CAP 实践、数据分布形式、一致性、2PC 和 3PC、大数据集成架构。波及的知识点有 Consistency 一致性、Availability 可用性、Partition tolerance 分区容忍性、数据量散布、2PC 流程、3PC 流程、哈希形式、一致性哈希等。

第三阶段为数据存储与计算(离线场景),次要解说协调服务 ZK(1T)、数据存储 hdfs(2T)、数据存储 alluxio(1T)、数据采集 flume、数据采集 logstash、数据同步 Sqoop(0.5T)、数据同步 datax(0.5T)、数据同步 mysql-binlog(1T)、计算模型 MR 与 DAG(1T)、hive(5T)、Impala(1T)、任务调度 Azkaban、任务调度 airflow 等。

第四阶段为数仓建设,次要解说数仓仓库的历史背景、离线数仓我的项目 - 伴我汽车(5T)架构技术解析、多维数据模型解决 kylin(3.5T)部署装置、离线数仓我的项目 - 伴我汽车降级后退出 kylin 进行多维分析等;

第五阶段为分布式计算引擎。次要解说计算引擎、scala 语言、spark、数据存储 hbase、redis、kudu,并通过某 p2p 平台我的项目实现 spark 多数据源读写。

第六阶段为数据存储与计算(实时场景),次要解说数据通道 Kafka、实时数仓 druid、流式数据处理 flink、SparkStreaming,并通过解说某交通大数让你能够将知识点死记硬背。

第七阶段为数据搜寻,次要解说 elasticsearch,包含全文搜寻技术、ES 安装操作、index、创立索引、增删改查、索引、映射、过滤等。

第八阶段为数据治理,次要解说数据规范、数据分类、数据建模、图存储与查问、元数据、血统与数据品质、Hive Hook、Spark Listener 等。

第九阶段为 BI 零碎,次要解说 Superset、Graphna 两大技术,包含根本简介、装置、数据源创立、表操作以及数据摸索剖析。

第十阶段为数据挖掘,次要解说机器学习中的数学体系、Spark Mlib 机器学习算法库、Python scikit-learn 机器学习算法库、机器学习联合大数据我的项目。

大数据时代曾经降临,它将掀起滔天巨浪,如果你想把握这股浪潮,那就要及早动手。

退出移动版