共计 1355 个字符,预计需要花费 4 分钟才能阅读完成。
数据分析师通常都须要借助编程工具整顿数量大而简单的数据,在这些数据中开掘有用的材料。简而言之,数据分析师就是从凌乱的数据中整顿出规定的人,而这样的工作要求数据分析师把握这些技巧:
业界常识 – 数据分析的根底就是为行业服务,足够的业界常识能让数据分析师理解到底哪些数据能力为行业提供更深刻的洞察
编程技巧 – 数据分析师须要分明应该应用哪些库来简化和解决数据,进而从中找到所需的材料
数据分析 – 除了自身的数据分析能力,数据分析师也须要懂得借助工具来提取数据中的价值
可视化技能 – 只是提取数据是不够的,数据分析师须要把这些数据整顿好后进行可视化,总结并出现给别人
这篇文章将应用 Python 在线运行一系列经典的数据分析案例,让你对数据分析工具与编程有肯定的理解,通过这些数据进行可视化并出现咱们所整顿的数据。
文章中所应用的数据和范例代码已整顿到我的项目文件中,大家只有关上就能够开始应用 Python 在线运行并查看数据:https://e2f35f8cd0-share.lightly.teamcode.com
剖析数据
首先,咱们须要应用 Python 中的 Pandas 库来读取 .csv
文件的数据。如果你的我的项目文件中还未装置 pandas,能够参考装置教程通过 pip install pandas
或 Quick Fix 一键装置。
读取数据
装置好 Pandas 库后,咱们还须要在编辑区应用 Python 代码 import pandas
导入,而后再通过上面的代码读取数据文件。
import pandas as pd
from tabulate import tabulate
df = pd.read_csv('diabetes.csv')
大家能够应用以下代码,在编辑器中应用 Python 在线运行并查看数据成果:
print(tabulate(df, headers = 'keys', tablefmt = 'psql'))
作为数据分析师,大家应该要晓得数值(Numerical)和分类(Categorical)数据之间的区别。
数值数据 顾名思义,指的是具备数值意义的数据。这种数据具备理论测量的物理意义,比方血糖、血压、年龄等。
分类数据 则形容对象的性质,比性别、婚姻状况、他乡等。咱们这次应用的数据中,其实只有“后果”属于分类数据。在示意分类数据时,咱们同样能应用数字来进行形容,但这些数据并没有数学意义,你不能拿他来做运算。
数据可视化
在这个教程中,咱们会展现一系列应用 Python 在线运行的数据可视化成果,大家能够依据本人的数据类型抉择适合的图表来出现。
饼图
应用 Python 在线运行代码:SimplePie.py
散点图
应用 Python 在线运行代码:scatterplot.py
折线图
应用 Python 在线运行代码:linechart.py
柱状图
应用 Python 在线运行代码:multibar.py
当咱们实现数据分析和可视化图表后,咱们能够依据数据和图标内容,简要阐明数据故事。例如:购买飞驰的人显著比宝马更多、中老年人患糖尿病的比例更高、一月份的冰箱购买量远比其余月份低等,从而依据其余数据和理论状况持续剖析。
数据分析师也是人,咱们在剖析数据的时候有时也会带有一些陷入为主的观点。然而,数据的意义就是为了破除这些迷思。剖析数据的过程中,咱们须要放弃凋谢的态度,不要让偏见影响咱们的数据后果。