关于大数据:短视频进入大数据领域的学习路线是什么

51次阅读

共计 1102 个字符，预计需要花费 3 分钟才能阅读完成。

“读字节”公众号视频地址：进入大数据畛域的学习路线是什么？

“读字节 - 大数据”B 站视频地址：进入大数据畛域的学习路线是什么？

“读字节 (大数据)”知乎视频地址：进入大数据畛域的学习路线是什么？

想要进入大数据畛域，首先最好要有一个演练场景，也就是你服务的客户具备大量非结构化的数据。若无奈满足这一点，其实也不用懊恼，注意有些书的例子就带了很多数据，例如 Google 的 Kaggle 网站，有很多美国公共事业的数据。

其次学习大数据要有足够的机器资源，一台 8 核，16g—32g 内存的电脑应该算学习的最低配置吧，当初大部分好点笔记本都能反对。切记是学习大数据技术而不是深度学习啊，那个深度学习硬件配置都是 3 万起步。

学习大数据肯定要从数据的采集、解决 (包含流，批)、音讯队列和存储动手。这是大数据技术的生命周期

技术路线上，我倡议先首先从 nosql 开始，学会文档数据库，键值对数据库的存储，也最好上手，像 elasticsearch，MongoDB，Redis 等等先来一圈

其次从日志流式管道动手，了解一下大数据传输的整体生命周期，那么学习 elk 技术，也就是 filebeat 采集文件或日志，logstash 荡涤过滤，kafka 长期直达，再写入 elasticsearch，Kibana 最终显示。那么你会对大数据流的过程有了粗浅的意识。

好了，做完下面的事件，总算大数据学习前的热身了！哈哈哈

开始进入正题

第一步开始应用举荐的硬件配置，开始搭建集群，zookeeper 集群，做散布式调度;hdfs 集群做分布式文件系统;yarn 集群做分布式计算;hbase 集群列式稠密存储

第二步 Hadoop 生态工具搭建，hive 工具，实现 SQL 接口视图加元数据存储;sqoop 做 rdbms 数据库到 hdfs 的物化视图;flume 替换 elk，做文件或日志的流式采集进入 hdfs。

第三步，开始你的根底编程之旅，包含 hdfs 的 Java 调用，MapReduce 的程序实现，了解 hdfs 的块构造，了解 MapReduce 的计数，排序，连贯和聚合，了解分区和分桶等等。另外还要了解实际 avro 容器格局，parquet 列式格局，了解压缩，这些都是基本。

第四步，开始 spark 之旅，搭建 spark 集群，学习什么是 rdd，dataframe，学习 scala 语言，会 Python 更好，学习 spark streaming 如何将 rdd 转换成微批模式和流式解决

好吧，有了这些功底，就能够开始一些机器学习或数据科学分析或数据挖掘的学习了。祝福你能成为大数据这方面的专家。

返回读字节的知乎——理解更多对于大数据的常识
公众号“读字节”分布式，大数据，软件架构的深度，业余解读

正文完

发表至：大数据

2021-03-26

0

关于redis:Redis-Key淘汰策略

视频地址