乐趣区

关于数据分析:图解数据分析-数据分析思维

作者:韩信子 @ShowMeAI
教程地址:http://www.showmeai.tech/tutorials/33

本文地址:http://www.showmeai.tech/article-detail/135
申明:版权所有,转载请分割平台与作者并注明出处


有人把数据分析的外围总结为六字,即比照、细分、溯源,也被数据分析的三板斧,撑持数据分析的外围利用,具体来说:

比照:成对地比拟。

  • 横向比照:与『别人』比拟,比方,两家公司的到职率。
  • 纵向比照:依照工夫维度与『本人』的比拟,比方,一家公司去年和往年的到职率。

细分:对数据减少维度、升高粒度地剖析。

  • 分维度:减少维度,比方,到职率依照部门维度来剖析。
  • 升高粒度:升高数据聚合的水平,比方,到职率不按年份、而依照月份来统计。

溯源:在比照、细分锁定到具体维度和粒度之后,仍然没有论断,那就须要查看原始数据,洞察数据,从数据中寻找灵感。

一、数据『比照』

数据放在那里是没有意义的,只有将数据进行比拟,才体现出数据分析的价值。比照其实很简略,就是把 A 和 B 比拟。然而,没有可对比性的比照肯定是耍流氓。

1.1 指标的可对比性

指标的可对比性,能够从四个“统一”准则来评估:对象统一、工夫属性统一、定义与算法统一、数据源统一。

(1)比价对象统一

比拟的对象统一。对象统一是可比的最根本准则,番茄的销量和猪的销量是不可比的,这其实就是因为比拟的对象不统一。

(2)工夫属性统一

指标的工夫属性统一。工夫属性比拟非凡,对象所在的节令、月份等工夫属性要有可比性。例如,一家便利店夏季雪糕的销量,和冬季没有可比性,因为对象的工夫属性不同,但做销量的同比是能够的。

(3)定义和算法统一

对剖析对象的定义和计算方法统一。举个例子,青年的定义,中国国家统计局(15-34 周岁)和中国共青团(14-28 周岁)不同,当统计青年人数占总人数的比例时,二者计算的指标数据,必定是不同的。

(4)数据源统一

统计的数据样本统一。

1.2 数据比照的“三要”

在做数据比照的相干剖析时,要记住三个“要”:比照要可比、差别要显著、形容要全面。

(1)比照要可比

比照剖析要有可比性。

(2)差别要显著

组间差别要显著,组内差别要轻微。罕用的显著性测验有 T 测验和方差分析。

(3)形容要全面

当刻画一组数据时,不仅要形容这组数据的个别程度(均值),还要思考到这组数据的稳定程度。如果稳定很大,个别程度对数据总体的代表性就会很差。只思考个别程度而不思考稳定和差别,会使数据的可信度大大缩水。

二、数据『细分』

通过减少维度和升高粒度来细分数据,深挖数据,揭示数据中潜藏的法则。

2.1 减少维度

一个维度是数据表的一列。通常状况下,维度是指定性数据。例如,产品提供的服务的类型、用户散布的地区等。在剖析数据时,减少剖析的维度,扭转对待问题的视角,可能在更细分的级别上剖析数据,洞察到更多的常识,减少数据分析的深度。

例如,新用户的留存率,通过减少获客起源的维度,能够监控各个起源的新用户的留存率,把无限的经费应用到真正能够带来无效转化的中央。

2.2 升高粒度

粒度是数据的聚合水平。颗粒度最小的数据,是没有聚合的原始数据。

举个例子,每日数据是原始数据,其粒度是日,数据的数量微小;而每周的统计数据是对日数据的聚合,其粒度是周,数据的数量变成原来的 1 /7。

三、数据『溯源』

溯源,就是到细节数据中去,查看原始数据,反思用户的行为。在做数据分析时,肯定要明确你剖析得数据是二手的,还是一手的。

  • 一手数据是最原始的数据,蕴含的内容最丰盛,但数据可能不标准。
  • 二手数据是通过解决的,甚至是剖析之后的数据,这些数据可能是全面的、阉割的、面向特定主题的,由此得出的剖析后果也可能有失公允。

材料与代码下载

本教程系列的代码能够在 ShowMeAI 对应的 github 中下载,可本地 python 环境运行,能迷信上网的宝宝也能够间接借助 google colab 一键运行与交互操作学习哦!

本系列教程波及的速查表能够在以下地址下载获取:

  • Pandas 速查表
  • Matplotlib 速查表
  • Seaborn 速查表

拓展参考资料

  • 利用 Python 进行数据分析·第 2 版
  • w3schools pandas tutorial
  • Kaggle 的 pandas 入门教程

ShowMeAI 相干文章举荐

  • 数据分析介绍
  • 数据分析思维
  • 业务认知与数据初探
  • 数据荡涤与预处理
  • 业务剖析与数据挖掘
  • 数据分析工具地图
  • 统计与数据科学计算工具库 Numpy 介绍
  • Numpy 与 1 维数组操作
  • Numpy 与 2 维数组操作
  • Numpy 与高维数组操作
  • 数据分析工具库 Pandas 介绍
  • 图解 Pandas 外围操作函数大全
  • 图解 Pandas 数据变换高级函数
  • Pandas 数据分组与操作
  • 数据可视化准则与办法
  • 基于 Pandas 的数据可视化
  • seaborn 工具与数据可视化

ShowMeAI 系列教程举荐

  • 图解 Python 编程:从入门到精通系列教程
  • 图解数据分析:从入门到精通系列教程
  • 图解 AI 数学根底:从入门到精通系列教程
  • 图解大数据技术:从入门到精通系列教程

退出移动版