作者：幻好

起源：恒生LIGHT云社区

背景简介

在进行量化剖析的过程中，总是须要应用大量的数据根底，对数据之间的关联进行开掘，最终找到咱们须要的数据。只通过Python进行数据分析是非常复杂的，有没有更简略的工具帮忙咱们可能高效快捷的帮忙咱们剖析数据呢？

明天就介绍下Pandas-一个弱小的剖析结构化数据的工具集。

本文次要正对有肯定 Python 语法根底的同学，须要学习 Python 的同学能够在社区寻找教程进行充电（https://developer.hs.net/cour…）。

基本概念

Pandas 库是一个收费、开源的第三方 Python 库，是 Python 数据分析必不可少的工具之一，它为 Python 数据分析提供了高性能，且易于应用的数据结构，即 Series 和 DataFrame。

Pandas 应用根底是Numpy（提供高性能的矩阵运算）；用于数据挖掘和数据分析，同时也提供数据荡涤性能。

Pandas 库基于 Python NumPy 库开发而来，因而，它能够与 Python 的科学计算库配合应用。

Pandas 自诞生后被利用于泛滥的畛域，比方金融、统计学、社会科学、建筑工程等。

通过以上的介绍，想必大家对于Pandas是干啥的，能有个根本的理解。pandas 相当于 python 中 excel：它应用表（也就是 dataframe)，能在数据上做各种变换，但还有其余很多性能。

数据结构

DataFrame

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列能够是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它能够被看做由 Series 组成的字典（独特用一个索引）。

DataFrame 构造方法如下：

pandas.DataFrame( data, index, columns, dtype, copy)

参数阐明：

data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者能够称为行标签。
columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。

Series

Series 相似表格中的一个列（column），相似于一维数组，能够保留任何数据类型。

Series 由索引（index）和列组成，函数如下：

pandas.Series( data, index, dtype, name, copy)

参数阐明：

data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会本人判断。
name：设置名称。
copy：拷贝数据，默认为 False。

疾速上手

引入组件

引入 Pandas 的组件到代码中：

import pandas as pd

如果引入不到，阐明环境配置有问题或者你压根就没下载，通过以下形式下载组件：

pip install Pandas

Series对象操作

通过 Series() 函数来创立 Series 对象，通过这个对象能够调用相应的办法和属性：

import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print (s)

DataFrame对象操作

通过 DataFrame() 创建对象的语法格局如下：

import pandas as pd
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

读取文件数据

能够通过 read_csv() 函数对本地 .csv格式文件进行读取：

data = pd.read_csv('file.csv')
data = pd.read_csv('file.csv', nrows=1000, skiprows=[1,5], encoding= gbk)

参数含意：

'file.csv' ：示意读取文件名，可退出零碎地位进行读取
nrows ：示意读取前多少行数据
skiprows ：示意读取文件的时候会主动跳过不读行数。
encoding ：示意读取文件的编码格局

与 read_csv ，相似的办法还有 read_excel 读取Excel文件数据。

写入文件数据

Pandas 提供的 to_csv() 函数用于将 DataFrame 转换为 CSV 数据。如果想要把 CSV 数据写入文件，只需向函数传递一个文件对象即可。否则，CSV 数据将以字符串格局返回。

data.to_csv(‘my_new_file.csv’, index=None)

参数含意：

index ：示意是否须要增加索引，默认会主动增加索引

与 to_csv ，相似的办法还有 to_excel 写入Excel文件数据。

总结

本文次要介绍 Pandas 工具集的基础知识，学习 Pandas 能帮忙咱们疾速解决和剖析数据，后续会持续会更新实用操作，敬请期待。

关于数据分析:Pandas学习笔记01强大的分析结构化数据的工具集

背景简介

基本概念

数据结构

DataFrame

Series

疾速上手

引入组件

Series对象操作

DataFrame对象操作

读取文件数据

写入文件数据

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据分析:Pandas学习笔记01强大的分析结构化数据的工具集

背景简介

基本概念

数据结构

DataFrame

Series

疾速上手

引入组件

Series对象操作

DataFrame对象操作

读取文件数据

写入文件数据

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复