数据处理次要是为了在实现数据荡涤过程之后,对荡涤过后的数据进行整顿不便前期的数据汇总、统计等。次要内容有数据的合并、分组、排序等内容操作。
公众号:老王说编程 | 作者:老王
1,导入数据处理 python 库
# 导入 numpy 库,次要用于数据计算
import numpy as np
# 导入 pandas 库,次要用于读取 excel 数据、DataFrame 数据结构的应用
import pandas as pd
2,DataFrame 数据表合并
# 创立 data1 数据表
data1=pd.DataFrame({"id":[1,2,3,4,5,6,7,8],
"names":['laowang','laowang','laowang','laowang','laowang','laowang','laowang','laowang']})
# 假如曾经存在 data2 数据表
# merge() 函数将 data1 和 data2 中共有的数据进行合并,生成新的数据表 data_inner
data_inner = pd.merge(data1,data2,how='inner')
3,数据表设置索引
# 将 data_inner 数据表中的 id 字段设置为索引列
data_inner.set_index('id')
4,按某字段或索引列进行排序
# data_inner 数据表按 name 字段的列进行排序
data_inner.sort_values(by=['name'])
# 按索引列进行排序
data_inner.sort_index()
5,数据表分组
# 将 name 列等于 'laowang' 的进行高亮展现
data_inner['name'] = np.where(df_inner['name'] == 'laowang','high','low')
更多精彩返回老王说编程 >>>