随着信息产业的迅猛发展,大数据利用逐步落地,行业人才需求量逐年扩充。大数据成为目前最具前景的高薪行业之一,大数据分析工程师、大数据开发工程师等大数据人才也成为市场紧缺型人才,薪资一涨再涨。很多人想要退出到大数据开发行列,却又不晓得怎么动手。接下来小编就给大家分享一份残缺的大数据学习路线,助力大家疾速入门!
第一阶段
为JAVASE+MYSQL+JDBC,次要学习一些Java语言的概念,如字符、流程管制、面向对象、过程线程、枚举反射等,学习MySQL数据库的装置卸载及相干操作,学习JDBC的实现原理以及Linux基础知识,是大数据刚入门阶段。
第二阶段为分布式实践简介,次要解说CAP实践、数据分布形式、一致性、2PC和3PC、大数据集成架构。波及的知识点有Consistency一致性、Availability可用性、Partition tolerance分区容忍性、数据量散布、2PC流程、3PC流程、哈希形式、一致性哈希等。
第三阶段为数据存储与计算(离线场景),次要解说协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。
第四阶段为数仓建设,次要解说数仓仓库的历史背景、离线数仓我的项目-伴我汽车(5T)架构技术解析、多维数据模型解决kylin(3.5T)部署装置、离线数仓我的项目-伴我汽车降级后退出kylin进行多维分析等;
第五阶段为分布式计算引擎。次要解说计算引擎、scala语言、spark、数据存储hbase、redis、kudu,并通过某p2p平台我的项目实现spark多数据源读写。
第六阶段为数据存储与计算(实时场景),次要解说数据通道Kafka、实时数仓druid、流式数据处理flink、SparkStreaming,并通过解说某交通大数让你能够将知识点死记硬背。
第七阶段为数据搜寻,次要解说elasticsearch,包含全文搜寻技术、ES安装操作、index、创立索引、增删改查、索引、映射、过滤等。
第八阶段为数据治理,次要解说数据规范、数据分类、数据建模、图存储与查问、元数据、血统与数据品质、Hive Hook、Spark Listener等。
第九阶段为BI零碎,次要解说Superset、Graphna两大技术,包含根本简介、装置、数据源创立、表操作以及数据摸索剖析。
第十阶段为数据挖掘,次要解说机器学习中的数学体系、Spark Mlib机器学习算法库、Python scikit-learn机器学习算法库、机器学习联合大数据我的项目。
大数据时代曾经降临,它将掀起滔天巨浪,如果你想把握这股浪潮,那就要及早动手。