关于数据分析:python数据分析-pandasDataFrame基本聚合函数统计数据

6次阅读

共计 1194 个字符,预计需要花费 3 分钟才能阅读完成。

相干扩大库
1# -*- coding: UTF-8 -*-
2
3import pandas as pd
4
5data_dict = {'first_col': [1, 2, 3, 4], 'second_col': [5, 6, 7, 8]}
6
7df = pd.DataFrame(data_dict)
统计简略信息
 1# 生成简要的数据统计数据
 2
 3describe(percentiles=None, include=None, exclude=None)
 4#        first_col  second_col
 5# count   4.000000    4.000000    总数量
 6# mean    2.500000    6.500000    均值
 7# std     1.290994    1.290994    方差
 8# min     1.000000    5.000000    最小值
 9# 25%     1.750000    5.750000    25% 数据量时的数据
10# 50%     2.500000    6.500000    50% 数据量时的数据
11# 75%     3.250000    7.250000    75% 数据量时的数据
12# max     4.000000    8.000000    最大值
13
14# percentiles 指定统计量,默认是 25%、50%、75% 时的数据量
15# include 蕴含数据类型,include='all' 同时蕴含离散型与数值型的统计特色、include='O' 蕴含离散型、默认 include=None 蕴含数值型
16# exclude 不蕴含数据类型,exclude='O' 不蕴含离散型
17
18print(df.describe(percentiles=[.2,.4,.6,.8], include=None, exclude='O'))
head() 与 tail() 函数
1# head() 函数前多少行
2
3print(df.head(2))
4
5# tail() 函数后多少行
6
7print(df.tail(2))
数据聚合统计
 1# 获取某一列的和
 2
 3print(df['first_col'].sum())
 4
 5# 获取某一列的均值
 6
 7print(df['first_col'].mean())
 8
 9# 获取某一列的总数量
10
11print(df['first_col'].count())
12
13# 获取某一列的最大值
14
15print(df['first_col'].max())
16
17# 获取某一列的最小值
18
19print(df['first_col'].min())
数据结构统计
 1# 返回列的数据类型
 2
 3print(df.dtypes)
 4
 5# size() 返回数据总数
 6
 7print(df.size)
 8
 9# 返回数据形态,几行几列
10
11print(df.shape)
12
13# 返回列数
14
15print(df.ndim)
16
17# 返回每一列的名称
18
19print(df.axes)

更多精彩返回微信公众号【Python 集中营】,专一于 python 技术栈,材料获取、交换社区、干货分享,期待你的退出~

正文完
 0