Python数据分析:简单统计量的计算

34次阅读

共计 1099 个字符,预计需要花费 3 分钟才能阅读完成。

1. 这些操作都要确保已经在电脑中安装好了 Anaconda 集成库,如果安装好后运行出错误,可以将原来电脑中的 python 卸载重新安装 Anaconda,建议安装时直接将添加环境变量打勾,否则以后得自己添加环境变量,在 Pycharm 中的编译器选择 Anaconda 安装文件夹中的 python。在 Pycharm 中新建一个 data 文件夹用来存放数据文件。

2. 打开 Python Console。
3. 首先在用 python 读取数据,需要先输入 import pandas as pd 引入 pandas 包,再输入 df=pd.read_csv(“./data/CityData.csv”) 读取数据,最后输入 df 显示数据。

4. 分别输入 type(df) 和 type(df[“cid”]) 可以发现两种数据类型不同。

5. 计算平均值:df.mean() 或 df[“xid”].mean()

6. 计算中位数:输入 df.median() 或 df[“yid”].median
7. 求四分位数:输入 df.quantile(q=0.25)

8. 求众数:输入 df.mode() 或 df[“xid”].mode()
9. 求标准差:输入 df.std() 或 df[“yid”].std()

10. 计算方差:df.var() 或 df[“xid”].var()

11. 求和:df.sum() 或 df[“xid”].sum()

12. 计算偏态系数:df.skew() 或 df[“yid”].skew()

13. 计算峰态系数:df.kurt() 或 df[“yid”].kurt()

14. 生成正态分布函数,pandas 无法直接生成,需要先引入 scipyimport scipy.stats as ss,再输入 ss.norm,这时生成的是一个正态分布的对象,我们输入 ss.norm.stats(moments=”mvsk”) 查看一下,mvsk 分别代表的是均值、方差、偏态系数、峰态系数。

这时我们可以看到生成四个值,分别对应正态分布的 mvsk 分别为 0、1、0、0。
15.ss.norm.pdf(0.0) 表示横坐标为 0 时的纵坐标的值。ss.norm.ppf(0.9) 表示从负无穷累积到返回值时得到的值为 0.9,其中 ppf 后的值必须在 0 - 1 之间。ss.norm.cdf(2) 表示从负无穷积分到 2 时的返回值,ss.norm.rvs(size=10) 可以得到 10 个随机的符合正态分布的数字。

16. 类似的,我们可以分别输入 ss.chi2 和 ss.t 得到卡方分布和 T 分布。

17. 此外我们还可以进行抽样,输入 df.sample(n=10) 从数据中抽取 10 个样本,输入 df.sample(frac=0.1) 从数据中抽取 10% 的样本。

正文完
 0