共计 1981 个字符,预计需要花费 5 分钟才能阅读完成。
作者:幻好
起源:恒生 LIGHT 云社区
背景简介
在进行量化剖析的过程中,总是须要应用大量的数据根底,对数据之间的关联进行开掘,最终找到咱们须要的数据。只通过 Python 进行数据分析是非常复杂的,有没有更简略的工具帮忙咱们可能高效快捷的帮忙咱们剖析数据呢?
明天就介绍下 Pandas- 一个弱小的剖析结构化数据的工具集。
本文次要正对有肯定 Python 语法根底的同学,须要学习 Python 的同学能够在社区寻找教程进行充电(https://developer.hs.net/cour…)。
基本概念
Pandas 库是一个收费、开源的第三方 Python 库,是 Python 数据分析必不可少的工具之一,它为 Python 数据分析提供了高性能,且易于应用的数据结构,即 Series 和 DataFrame。
Pandas 应用根底是 Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据荡涤性能。
Pandas 库基于 Python NumPy 库开发而来,因而,它能够与 Python 的科学计算库配合应用。
Pandas 自诞生后被利用于泛滥的畛域,比方金融、统计学、社会科学、建筑工程等。
通过以上的介绍,想必大家对于 Pandas 是干啥的,能有个根本的理解。pandas 相当于 python 中 excel:它应用表(也就是 dataframe),能在数据上做各种变换,但还有其余很多性能。
数据结构
DataFrame
DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列能够是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它能够被看做由 Series 组成的字典(独特用一个索引)。
DataFrame 构造方法如下:
pandas.DataFrame(data, index, columns, dtype, copy)
参数阐明:
- data:一组数据 (ndarray、series, map, lists, dict 等类型)。
- index:索引值,或者能够称为行标签。
- columns:列标签,默认为 RangeIndex (0, 1, 2, …, n)。
- dtype:数据类型。
- copy:拷贝数据,默认为 False。
Series
Series 相似表格中的一个列(column),相似于一维数组,能够保留任何数据类型。
Series 由索引(index)和列组成,函数如下:
pandas.Series(data, index, dtype, name, copy)
参数阐明:
- data:一组数据 (ndarray 类型)。
- index:数据索引标签,如果不指定,默认从 0 开始。
- dtype:数据类型,默认会本人判断。
- name:设置名称。
- copy:拷贝数据,默认为 False。
疾速上手
引入组件
引入 Pandas 的组件到代码中:
import pandas as pd
如果引入不到,阐明环境配置有问题或者你压根就没下载,通过以下形式下载组件:
pip install Pandas
Series 对象操作
通过 Series() 函数来创立 Series 对象,通过这个对象能够调用相应的办法和属性:
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print (s)
DataFrame 对象操作
通过 DataFrame()
创建对象的语法格局如下:
import pandas as pd
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)
读取文件数据
能够通过 read_csv()
函数对本地 .csv
格式文件进行读取:
data = pd.read_csv('file.csv')
data = pd.read_csv('file.csv', nrows=1000, skiprows=[1,5], encoding= gbk)
参数含意:
'file.csv'
:示意读取文件名,可退出零碎地位进行读取nrows
:示意读取前多少行数据skiprows
:示意读取文件的时候会主动跳过不读行数。encoding
:示意读取文件的编码格局
与 read_csv
,相似的办法还有 read_excel
读取 Excel 文件数据。
写入文件数据
Pandas 提供的 to_csv()
函数用于将 DataFrame
转换为 CSV
数据。如果想要把 CSV
数据写入文件,只需向函数传递一个文件对象即可。否则,CSV
数据将以字符串格局返回。
data.to_csv(‘my_new_file.csv’, index=None)
参数含意:
index
:示意是否须要增加索引,默认会主动增加索引
与 to_csv
,相似的办法还有 to_excel
写入 Excel 文件数据。
总结
本文次要介绍 Pandas 工具集的基础知识,学习 Pandas 能帮忙咱们疾速解决和剖析数据,后续会持续会更新实用操作,敬请期待。