科学计算Python-分析数据找问题并图形化

44次阅读

共计 3157 个字符，预计需要花费 8 分钟才能阅读完成。

对于记录的数据，如何用 Python 进行分析、或图形化呢？

本文将介绍 numpy, matplotlib, pandas, scipy 几个包，进行数据分析、与图形化。

Python 环境建议用 Anaconda 发行版，下载地址：

官方: https://www.anaconda.com/prod…
清华源: https://mirrors.tuna.tsinghua…

Anaconda 是一个用于科学计算的 Python 发行版，已经包含了众多流行的科学计算、数据分析的 Python 包。

可以 conda list 列出已有的包，会发现本文要介绍的几个包都有了：

$ conda list | grep numpy
numpy                     1.17.2           py37h99e6662_0

$ conda list | grep "matplot\|seaborn\|plotly"
matplotlib                3.1.1            py37h54f8f79_0
seaborn                   0.9.0                    py37_0

$ conda list | grep "pandas\|scipy"
pandas                    0.25.1           py37h0a44026_0
scipy                     1.3.1            py37h1410ff5_0

如果已有 Python 环境，那么 pip 安装一下它们：

pip install numpy matplotlib pandas scipy
# pypi 镜像: https://mirrors.tuna.tsinghua.edu.cn/help/pypi/

本文环境为：Python 3.7.4 (Anaconda3-2019.10)

本文假设了如下格式的数据 data0.txt :

id, data, timestamp
0, 55, 1592207702.688805
1, 41, 1592207702.783134
2, 57, 1592207702.883619
3, 59, 1592207702.980597
4, 58, 1592207703.08313
5, 41, 1592207703.183011
6, 52, 1592207703.281802
...

CSV 格式：逗号分隔，读写简单，Excel 可打开。

之后，我们会一起达成如下几个目标：

CSV 数据，numpy 读取与计算
data 列数据，matplotlib 图形化
data 列数据，scipy 插值，形成曲线
timestamp 列数据，pandas 分析前后差值、每秒个数

numpy 可用 loadtxt 直接读取 CSV 数据，

import numpy as np

# id, (data), timestamp
datas = np.loadtxt(p, dtype=np.int32, delimiter=",", skiprows=1, usecols=(1))

dtype=np.int32: 数据类型 np.int32
delimiter=",": 分隔符 “,”
skiprows=1: 跳过第 1 行
usecols=(1): 读取第 1 列

如果读取多列，

# id, (data, timestamp)
dtype = {'names': ('data', 'timestamp'), 'formats': ('i4', 'f8')}
datas = np.loadtxt(path, dtype=dtype, delimiter=",", skiprows=1, usecols=(1, 2))

dtype 说明可见: https://numpy.org/devdocs/ref…

numpy 计算均值、样本标准差：

# average
data_avg = np.mean(datas)
# data_avg = np.average(datas)

# standard deviation
# data_std = np.std(datas)
# sample standard deviation
data_std = np.std(datas, ddof=1)

print("avg: {:.2f}, std: {:.2f}, sum: {}".format(data_avg, data_std, np.sum(datas)))

只需四行，就能图形化显示了：

import sys

import matplotlib.pyplot as plt
import numpy as np

def _plot(path):
  print("Load: {}".format(path))
  # id, (data), timestamp
  datas = np.loadtxt(path, dtype=np.int32, delimiter=",", skiprows=1, usecols=(1))

  fig, ax = plt.subplots()
  ax.plot(range(len(datas)), datas, label=str(i))
  ax.legend()
  plt.show()

if __name__ == "__main__":
  if len(sys.argv) < 2:
    sys.exit("python data_plot.py *.txt")
  _plot(sys.argv[1])

ax.plot(x, y, ...) 横坐标 x 取的数据下标 range(len(datas))。

完整代码见文末 Gist 地址的 data_plot.py。运行效果如下：

$ python data_plot.py data0.txt
Args
  nonzero: False
Load: data0.txt
  size: 20
  avg: 52.15, std: 8.57, sum: 1043

可以读取多个文件，一起显示：

$ python data_plot.py data*.txt
Args
  nonzero: False
Load: data0.txt
  size: 20
  avg: 52.15, std: 8.57, sum: 1043
Load: data1.txt
  size: 20
  avg: 53.35, std: 6.78, sum: 1067

x, y 两组数据，用 scipy 进行插值，平滑成曲线：

from scipy import interpolate

xnew = np.arange(xvalues[0], xvalues[-1], 0.01)
ynew = interpolate.interp1d(xvalues, yvalues, kind='cubic')

完整代码见文末 Gist 地址的 data_interp.py。运行效果如下：

python data_interp.py data0.txt

matplotlib 图像化时如何配置、延迟、保存，可见代码与注释。

这儿需要读取 timestamp 列数据，

# id, data, (timestamp)
stamps = np.loadtxt(path, dtype=np.float64, delimiter=",", skiprows=1, usecols=(2))

numpy 计算前后差值，

stamps_diff = np.diff(stamps)

pandas 统计每秒个数，

stamps_int = np.array(stamps, dtype='int')
stamps_int = stamps_int - stamps_int[0]
import pandas as pd
stamps_s = pd.Series(data=stamps_int)
stamps_s = stamps_s.value_counts(sort=False)

办法：把时间戳直接变整秒数，再 pandas 统计相同值。

完整代码见文末 Gist 地址的 stamp_diff.py。运行效果如下：

python stamp_diff.py data0.txt

matplotlib 图形化时怎么显示多个图表，也可见代码。

本文代码 Gist 地址: https://gist.github.com/ikuok…

分享 Coding 中实用的小技巧、小知识！欢迎关注，共同成长！

正文完

python

发表至： python

2020-06-16

0

Python中-args-和-kwargs的用法

关于python:使用Python的Plotly库进行可视化

关于python:专科毕业一年自学python收获35K我是怎么做到的我的秘诀是什么

关于python:python应用3启用集成开发工具pycharm

uniapp组件下拉刷新

科学计算Python-分析数据找问题并图形化

准备环境

准备数据

numpy 读取数据

numpy 分析数据

matplotlib 图形化

scipy 对数据插值

pandas 分析数据

结语

Just My Socks（注册教程内含优惠码）

科学计算Python-分析数据找问题并图形化

准备环境

准备数据

numpy 读取数据

numpy 分析数据

matplotlib 图形化

scipy 对数据插值

pandas 分析数据

结语

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）