关于人工智能:掌握Pandas时间序列分析的20个知识点

作者|Soner Yıldırım
编译|VK
起源|Towards Datas Science

工夫序列数据有很多种定义，它们以不同的形式示意雷同的含意。一个简略的定义是，工夫序列数据是蕴含序列工夫戳的数据点。

工夫序列数据的起源是周期性测量或观测。咱们察看了许多行业的工夫序列数据。举几个例子：

股票价格随工夫变动
日、周、月销售额
过程中的周期性测量
一段时间内的电力或天然气消耗率

在这篇文章中，我将列出20点，这将有助于你全面理解如何解决Pandas的工夫序列数据处理。

1.不同模式的工夫序列数据

工夫序列数据能够是特定日期、持续时间或固定定义距离的模式。

工夫戳能够是一天的日期，也能够是给定日期的纳秒，具体取决于精度。例如，“2020–01–01 14:59:30”是基于秒的工夫戳。

2.工夫序列数据结构

Pandas提供灵便高效的数据结构来解决各种工夫序列数据。

除了这三种构造，Pandas还反对日期偏移概念，这是一种思考日历算法的绝对工夫长度。

3.创立工夫戳

最根本的工夫序列数据结构是工夫戳，它能够应用to_datetime 或Timestamp 函数创立

import pandas as pd

pd.to_datetime('2020-9-13')
Timestamp('2020-09-13 00:00:00')

pd.Timestamp('2020-9-13')
Timestamp('2020-09-13 00:00:00')

4.拜访工夫戳的信息

咱们能够取得存储在工夫戳中的日期、月份和年份的信息。

a = pd.Timestamp('2020-9-13')

a.day_name()
'Sunday'

a.month_name()
'September'

a.day
13

a.month
9

a.year
2020

5.获取不太显著的信息

Timestamp对象还保留无关日期算术的信息。例如，咱们能够问一年是否是平年。以下是咱们能够取得的一些更具体的信息：

b = pd.Timestamp('2020-9-30')

b.is_month_end
True

b.is_leap_year
True

b.is_quarter_start
False

b.weekofyear
40

6.欧式日期

咱们能够应用to_datetime函数来解决欧式日期（即日期优先）。dayfirst参数设置为True。

pd.to_datetime('10-9-2020', dayfirst=True)
Timestamp('2020-09-10 00:00:00')

pd.to_datetime('10-9-2020')
Timestamp('2020-10-09 00:00:00')

注：如果第一项大于12，Pandas晓得它不能是月份。

pd.to_datetime('13-9-2020')
Timestamp('2020-09-13 00:00:00')

7.将数据帧转换为工夫序列数据

to_datetime 函数能够将具备适当列的数据帧转换为工夫序列。思考以下数据帧：

pd.to_datetime(df)

0   2020-04-13 
1   2020-05-16 
2   2019-04-11 
dtype: datetime64[ns]

8.工夫序列数据

在现实生活中，咱们简直总是解决间断的工夫序列数据，而不是独自的日期。Pandas使解决时序数据变得非常简单。

咱们能够将日期列表传递给to_datetime函数。

pd.to_datetime(['2020-09-13', '2020-08-12', 
'2020-08-04', '2020-09-05'])

DatetimeIndex(['2020-09-13', '2020-08-12', '2020-08-04', '2020-09-05'], dtype='datetime64[ns]', freq=None)

返回的对象是DatetimeIndex。

有更实用的办法来创立日期序列。

9.创立蕴含to_datetime和to_timedelta的工夫序列

能够通过向工夫戳增加TimedeltaIndex来创立DatetimeIndex。

pd.to_datetime('10-9-2020') + pd.to_timedelta(np.arange(5), 'D')

“D”示意“day”，但还有许多其余选项可用。你能够在这里查看整个清单:https://pandas.pydata.org/pan…

10.date_range函数

它提供了一种更灵便的办法来创立DatetimeIndex。

pd.date_range(start='2020-01-10', periods=10, freq='M')

periods参数指定索引中的项数。freq是频率，“M”示意一个月的最初一天。

就freq参数的参数而言，date_range相当灵便。

pd.date_range(start='2020-01-10', periods=10, freq='6D')

咱们创立了一个频率为6天的索引。

11.period_range 函数

它返回一个周期索引。语法相似于date_range函数。

pd.period_range('2018', periods=10, freq='M')

12.timedelta_range 函数

返回TimedeltaIndex。

pd.timedelta_range(start='0', periods=24, freq='H')

13时区

默认状况下，pandas的工夫序列对象没有指定的时区。

dates = pd.date_range('2019-01-01','2019-01-10')

dates.tz is None
True

咱们能够应用tz_localize办法为这些对象指定一个时区。

dates_lcz = dates.tz_localize('Europe/Berlin')

dates_lcz.tz
<DstTzInfo 'Europe/Berlin' LMT+0:53:00 STD>

14.创立具备指定时区的工夫序列

咱们还能够应用tz关键字参数创立一个带有时区的工夫序列对象。

pd.date_range('2020-01-01', periods = 5, freq = 'D', tz='US/Eastern')

15.偏移量

假如咱们有一个工夫序列索引，并心愿偏移特定工夫的所有日期。

A = pd.date_range('2020-01-01', periods=10, freq='D')
A

让咱们在这个序列中减少一周的偏移量。

A + pd.offsets.Week()

16.挪动工夫序列数据

工夫序列数据分析可能须要挪动数据点来进行比拟。shift函数可及时挪动数据。

A.shift(10, freq='M')

17.shift与tshift

shift：挪动数据
tshift：扭转工夫索引

让咱们创立一个带有工夫序列索引的数据帧，并对其进行绘图，以查看shift和tshift之间的差别。

dates = pd.date_range('2020-03-01', periods=30, freq='D')
values = np.random.randint(10, size=30)
df = pd.DataFrame({'values':values}, index=dates)

df.head()

让咱们将原始工夫序列与移位的工夫序列一起绘制进去。

import matplotlib.pyplot as plt

fig, axs = plt.subplots(nrows=3, figsize=(10,6), sharey=True)
plt.tight_layout(pad=4)
df.plot(ax=axs[0], legend=None)
df.shift(10).plot(ax=axs[1], legend=None)
df.tshift(10).plot(ax=axs[2], legend=None)

18.应用重采样性能从新采样

工夫序列数据的另一个常见操作是重采样。依据工作的不同，咱们可能须要以更高或更低的频率从新采样数据。

重采样创立指定外部的组，并容许你对组进行聚合。

让咱们创立一个蕴含30个值和工夫序列索引的Pandas序列。

A = pd.date_range('2020-01-01', periods=30, freq='D')
values = np.random.randint(10, size=30)
S = pd.Series(values, index=A)

上面将返回3天周期的平均值。

S.resample('3D').mean()

19.Asfreq函数

在某些状况下，咱们可能对某些频率下的值感兴趣。Asfreq函数返回指定距离完结时的值。例如，在上一步创立的序列中，咱们可能只须要每隔3天（而不是3天平均值）的值。

S.asfreq('3D')

20.滚动

滚动是工夫序列数据的一种十分有用的操作。滚动意味着创立一个具备指定大小的滚动窗口，并对该窗口中的数据执行计算，当然，该窗口会滚动数据。下图解释了滚动的概念。

值得注意的是，当整个窗口都在数据中时，计算就开始了。换句话说，如果窗口的大小为3，则第一次聚合将在第三行实现。

让咱们将3天的滚动窗口利用到咱们的序列中。

S.rolling(3).mean()[:10]

论断

咱们曾经全面介绍了Pandas的工夫序列剖析。值得注意的是，Pandas提供了更多的工夫序列剖析。

官网文档涵盖了工夫序列的所有性能和办法。乍一看仿佛详尽无遗，但通过练习你会感到有所成长。

官网文档：https://pandas.pydata.org/doc…

谢谢你的浏览。如果你有任何反馈，请通知我。

原文链接：https://towardsdatascience.co…

欢送关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官网文档：
http://sklearn123.com/

欢送关注磐创博客资源汇总站：
http://docs.panchuang.net/

关于人工智能:掌握Pandas时间序列分析的20个知识点

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:掌握Pandas时间序列分析的20个知识点

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复