作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/84
本文地址：http://www.showmeai.tech/article-detail/175
申明：版权所有，转载请分割平台与作者并注明出处

1.Spark Dataframe 简介

在高版本的Spark中，咱们能够应用Dataframe这个构造状态更方便快捷地对数据进行解决，而且它也和咱们相熟的python pandas Dataframe的很多操作能够类比关联。

DataFrame是一个以命名列形式组织的分布式数据集。在概念上，它跟关系型数据库中的一张表或者1个Python(或者R)中的data frame一样，然而进行了一些优化。DataFrame能够依据结构化的数据文件、hive表、内部数据库或者曾经存在的RDD结构。

依据官网文档的解释，咱们能够发现 Spark DataFrame 有以下几个外围点：

分布式的数据集
与关系型数据库中的table、excel 里的一张 sheet、python/R 里的 DataFrame等相似
领有丰盛的操作函数，相似于 RDD 中的算子
一个 DataFrame 能够被注册成一张数据表，而后用 SQL 语言在下面操作
丰盛的创立形式：结构化数据文件、Hive表、内部数据库、已有的RDD

1）DataFrame的劣势

DataFrame API 是在 R 和 Python Pandas Dataframe 灵感之上设计的，具备以下性能个性：

从KB到PB级的数据量反对
多种数据格式和多种存储系统反对
通过Spark SQL 的 Catalyst 优化器进行先进的优化，生成代码
通过Spark无缝集成所有大数据工具与基础设施
为Python、Java、Scala和R语言（SparkR）API

简略来说，DataFrame 可能更不便的操作数据集，而且因为其底层是通过 Spark SQL 的 Catalyst优化器生成优化后的执行代码，所以其执行速度会更快。

2）Spark生态及DataFrame所处地位

2.DataFrame 创立形式

1）创立DataFrame的数据源

Spark SQL，DataFrame，datasets 共用 Spark SQL 库，三者共享同样的代码优化、生成以及执行流程，所以 SQL，DataFrame，datasets 的入口都是 SQLContext。

2）创立DataFrame的步骤

以python代码（pyspark）为例，咱们在创立spark Dataframe之前，须要先初试化Sparksession。

获取数据集与代码 → ShowMeAI的官网GitHub https://github.com/ShowMeAI-Hub/awesome-AI-cheatsheets
运行代码段与学习 → 在线编程环境 http://blog.showmeai.tech/python3-compiler

基于sparksession对象咱们能够通过read函数对不同类型的文本状态数据进行加载（比方下图演示的是json格局）

获取数据集与代码 → ShowMeAI的官网GitHub https://github.com/ShowMeAI-Hub/awesome-AI-cheatsheets
运行代码段与学习 → 在线编程环境 http://blog.showmeai.tech/python3-compiler

当然，咱们也能够通过RDD初始化spark Dataframe，参考代码如下图所示：

获取数据集与代码 → ShowMeAI的官网GitHub https://github.com/ShowMeAI-Hub/awesome-AI-cheatsheets
运行代码段与学习 → 在线编程环境 http://blog.showmeai.tech/python3-compiler

咱们也能够间接从csv文件加载数据，如下图参考代码所示：

获取数据集与代码 → ShowMeAI的官网GitHub https://github.com/ShowMeAI-Hub/awesome-AI-cheatsheets
运行代码段与学习 → 在线编程环境 http://blog.showmeai.tech/python3-compiler

构建实现的spark Dataframe能够通过printSchema查看Dataframe的构造状态，如下参考代码所示：

获取数据集与代码 → ShowMeAI的官网GitHub https://github.com/ShowMeAI-Hub/awesome-AI-cheatsheets
运行代码段与学习 → 在线编程环境 http://blog.showmeai.tech/python3-compiler

3.DataFrame数据外围操作

DataFrame的操作API汇总如下图所示：

1）Agg

能够通过agg操作对spark Dataframe的数据进行聚合统计。

2）Alias

Alias操作次要是对spark Dataframe的字段进行重命名操作。

3）Cache

cache用于对数据长久化，对应操作下的数据，不会在spark计算过程中反复计算。

4）Collect

collect操作会把数据间接把数据取回内存，以python列表状态返回。

5）Columns

能够通过columns操作获取字段名称列表。

6）Corr

对于数据的统计计算，比方相关性能够通过corr操作实现。

7）Count

能够通过count操作实现Dataframe数据的计数统计。

8）Describe

咱们通过describe函数能够查看Dataframe数据的根本统计信息。

9）Distinct

如果要对Dataframe数据进行虑重操作，能够应用distinct算子操作。

10）Drop

删除数据或者字段都能够通过drop算子实现。

11）Dropna

dropna能够帮忙咱们剔除掉数据中的缺失值记录或者字段。

12）Fillna

咱们能够通过fillna来填充Dataframe缺失值。

13）Filter

咱们能够通过filter操作对spark Dataframe的数据进行条件过滤。

14）First

first能够取出spark Dataframe的第1条数据记录并返回。

15）FlatMap

Spark Dataframe中的flatmap和RDD中的操作相似，也能够帮忙咱们把数据变换并平铺返回。

16）Head

能够通过head操作返回前n条数据记录。

17）Groupby

对于Spark Dataframe大数据的分组能够通过groupby实现

18）Join

咱们通过Join操作对Spark Dataframe的不同数据表进行连贯聚合。

19）OrderBy

能够通过orderby对spark Dataframe数据进行排序操作。

4.Spark SQL 操作

《更多材料 → 数据迷信工具速查 | Spark使用指南(SQL版)》

1）通过SQL对数据进行操作

除了应用DataFrame API数据，还能够注册成table，通过SQL对数据进行操作。

2）案例详解

5.参考资料

数据迷信工具速查 | Spark使用指南(RDD版) http://www.showmeai.tech/article-detail/106
数据迷信工具速查 | Spark使用指南(SQL版) http://www.showmeai.tech/article-detail/107
纪涵，靖晓文，赵政达著，Spark SQL入门与实际指南，清华大学出版社，2018
MICK（作者）孙淼（译者），SQL基础教程第2版，人民邮电出版社，2017
SparkSQL官网文档中文版，http://spark.apachecn.org/docs/cn/2.2.0/sql-programming-guide.html

ShowMeAI相干文章举荐

图解大数据 | 导论：大数据生态与利用
图解大数据 | 分布式平台：Hadoop与Map-reduce详解
图解大数据 | 实操案例：Hadoop零碎搭建与环境配置
图解大数据 | 实操案例：利用map-reduce进行大数据统计
图解大数据 | 实操案例：Hive搭建与利用案例
图解大数据 | 海量数据库与查问：Hive与HBase详解
图解大数据 | 大数据分析开掘框架：Spark初步
图解大数据 | Spark操作：基于RDD的大数据处理剖析
图解大数据 | Spark操作：基于Dataframe与SQL的大数据处理剖析
图解大数据 | 综合案例：应用spark剖析美国新冠肺炎疫情数据
图解大数据 | 综合案例：应用Spark剖析开掘批发交易数据
图解大数据 | 综合案例：应用Spark剖析开掘音乐专辑数据
图解大数据 | 流式数据处理：Spark Streaming
图解大数据 | Spark机器学习(上)-工作流与特色工程
图解大数据 | Spark机器学习(下)-建模与超参调优
图解大数据 | Spark GraphFrames：基于图的数据分析开掘

ShowMeAI系列教程举荐

图解Python编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解AI数学根底：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程

关于大数据:图解大数据-Spark-DataframeSQL大数据处理分析

1.Spark Dataframe 简介

1）DataFrame的劣势

2）Spark生态及DataFrame所处地位

2.DataFrame 创立形式

1）创立DataFrame的数据源

2）创立DataFrame的步骤

3.DataFrame数据外围操作

1）Agg

2）Alias

3）Cache

4）Collect

5）Columns

6）Corr

7）Count

8）Describe

9）Distinct

10）Drop

11）Dropna

12）Fillna

13）Filter

14）First

15）FlatMap

16）Head

17）Groupby

18）Join

19）OrderBy

4.Spark SQL 操作

1）通过SQL对数据进行操作

2）案例详解

5.参考资料

ShowMeAI相干文章举荐

ShowMeAI系列教程举荐

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于大数据:图解大数据-Spark-DataframeSQL大数据处理分析

1.Spark Dataframe 简介

1）DataFrame的劣势

2）Spark生态及DataFrame所处地位

2.DataFrame 创立形式

1）创立DataFrame的数据源

2）创立DataFrame的步骤

3.DataFrame数据外围操作

1）Agg

2）Alias

3）Cache

4）Collect

5）Columns

6）Corr

7）Count

8）Describe

9）Distinct

10）Drop

11）Dropna

12）Fillna

13）Filter

14）First

15）FlatMap

16）Head

17）Groupby

18）Join

19）OrderBy

4.Spark SQL 操作

1）通过SQL对数据进行操作

2）案例详解

5.参考资料

ShowMeAI相干文章举荐

ShowMeAI系列教程举荐

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复