共计 7563 个字符,预计需要花费 19 分钟才能阅读完成。
作者 |SAURABH JAJU
编译 |Flin
起源 |analyticsvidhya
介绍
工夫序列预测与建模在数据分析中起着重要的作用。工夫序列剖析是统计学的一个分支,广泛应用于计量经济学和运筹学等畛域。这篇技能测试文章是为了测试你对工夫序列概念的理解水平。
共有 1094 人报名加入了这次技能测试。这个测试是为了测试你对工夫序列的理解的程度。如果你错过了这次技能测试,这里有一些问题和对应的解决方案。如果你错过了实时测试,也能够通过浏览本文以理解你有多少题目是能够正确答复的。
这是所有参赛者的排行榜
- https://datahack.analyticsvid…
所有的得分
上面是散布得分,它们将帮忙你评估你的体现。
你能够在下方链接查看分数。
- https://datahack.analyticsvid…
300 多人加入了技能测试,取得的最高分数为 38 分。以下是一些对于散布的统计数据。
- 平均分:17.13
- 中位数:19
- 众数:19
1)上面哪一个是工夫序列问题的例子?
- 预计将来 6 个月酒店客房预订数量。
- 预计保险公司将来三年的总销售额。
- 预计下一周的通话次数。
A) 只有 3
B) 1 和 2
C) 2 和 3
D) 1 和 3
E) 1,2 和 3
解决方案:(E)
以上所有选项都与工夫序列无关。
2)以下哪项不是工夫序列模型的示例?
A)奢侈法
B)指数平滑
C)挪动均匀
D)以上都不是
解决方案:(D)
奢侈法:一种预计技术,在这种技术中,最初一个期间的理论状况被用作这一时期的预测,而不加以调整或试图确定因果因素,实用于比较稳定的序列。它仅用于与更简单的技术生成的预测进行比拟。
在指数平滑中,旧数据的绝对重要性逐步升高,而新数据的绝对重要性逐步进步。
在工夫序列剖析中,挪动均匀(MA)模型是一种罕用的单变量工夫序列建模办法。挪动均匀模型指定输入变量线性依赖于随机项(不齐全可预测)的以后值和各种过来值。
3)下列哪项不能作为工夫序列图的组成部分?
A)季节性
B)趋势
C)周期性
D)噪声
E)以上都不是
解决方案:(E)
当一系列因素受到节令因素(例如,一年中的一个季度、一个月或一周中的一天)的影响时,就存在一种节令模式。季节性总是一个固定且已知的期间。因而,季节性工夫序列有时被称为周期性工夫序列
节令总是一个固定且已知的期间。当数据出现非固定周期的涨跌时,它就存在一种循环模式。
趋势被定义为工夫序列中跟日历无关且无规律影响的“长期”静止,是底层的反映。它是人口增长、物价上涨和个别经济变动等影响的后果。下图描述了一个随工夫有显著回升趋势的系列。
噪声:在离散工夫内,白噪声是一种离散信号,其样本被视为一系列均值为零、方差无限的不相干随机变量。
因而,上述所有内容都是工夫序列的组成部分。
4)在工夫序列建模中,下列哪项比拟容易预计?
A)季节性
B)周期性
C)季节性和周期性没有区别
解决方案:(A)
正如咱们在后面的解中所看到的,因为季节性出现安稳的构造,所以更容易预计。
5)上面的工夫序列图蕴含周期性和季节性成分
A)真
B)假
解决方案:(B)
下面的图中以固定的工夫距离反复呈现差不多的趋势,因而实际上只是季节性的。
6)工夫序列数据(不包含白噪声)中的相邻观测值是独立且均匀分布的(IID)
A)真
B)假
解决方案:(B)
随着观测值之间的工夫距离变短,它们往往与工夫强相干。因为工夫序列预测是基于以前的察看数据而不是以后的察看数据,不像分类或回归那样数据与数据之间关联性不高。
7)靠近 1 的平滑参数会给预测中的最新观测值带来更大的权重或影响
A)真
B)假
解决方案:(A)
将较大的权重利用于较新的观测后果中,比利用到历史数据的观测后果中更为理智。这正是简略指数平滑背地的概念。预测是应用加权平均值计算的,加权平均值随着过来观测值的减少呈指数递加——最小的权重将与最早的观测值相干。
8)指数平滑的权重之和是_____
A)<1
B)1
C)> 1
D)以上都不是
解决方案:(B)
表 7.1 显示了应用简略指数平滑法进行预测时,对四个不同 α 值的观测值的权重。请留神,对于任何正当的样本量,即便对于较小的 α,权重的总和也将约为 1。
Observation | α=0.2 | α=0.4 | α=0.6 | α=0.8 |
yT | 0.2 | 0.4 | 0.6 | 0.8 |
yT−1 | 0.16 | 0.24 | 0.24 | 0.16 |
yT−2 | 0.128 | 0.144 | 0.096 | 0.032 |
yT−3 | 0.102 | 0.0864 | 0.0384 | 0.0064 |
yT−4 | (0.2)(0.8) | (0.4)(0.6) | (0.6)(0.4) | (0.8)(0.2) |
yT−5 | (0.2)(0.8) | (0.4)(0.6) | (0.6)(0.4) | (0.8)(0.2) |
9)上一阶段的预测是 70,而需要是 60。什么是简略的指数平滑?当 Alpha = 0.4 时,预测下一个周期。
A) 63.8
B) 65
C) 62
D) 66
解决方案:(D)
Yt-1 = 70
St-1 = 60
Alpha = 0.4
代入,得:
0.4 60 + 0.6 70 = 24 + 42 = 66
10)自协方差测量什么?
A)不同工夫观测到的不同序列上多个点之间的线性相关性
B)不同工夫观测到的同一序列上两点之间的二次相关性
C)同时观测到的不同序列两点之间的线性关系
D)在不同工夫观测到的同一序列上两点之间的线性关系
解决方案:(D)
选项 D 是自协方差的定义。
11)下列哪项不是弱安稳工夫序列的必要条件?
A)平均值是恒定的,不依赖于工夫
B)自协方差函数仅通过其差 |s-t| 依赖于 s 和 t(其中 t 和 s 为时刻)
C)所思考的工夫序列是一个无限方差过程
D)工夫序列是高斯的
解决方案:(D)
高斯工夫序列意味着平稳性是严平稳性。
12)下列哪项不是平滑工夫序列的技术?
A)最近邻回归
B)部分加权散点图平滑
C)基于树的模型,如(CART)
D)平滑样条曲线
解决方案:(C)
工夫序列平滑和滤波能够用部分回归模型来示意。多项式和回归样条也提供了平滑的重要技术。基于 CART 的模型不提供要叠加在工夫序列上的方程,因而不能用于平滑。所有其余技术都是有据可查的平滑技术。
13) 如果 2016 年 10 月需要为 100,2016 年 11 月需要为 200,2016 年 12 月需要为 300,2017 年 1 月需要为 400。2017 年 2 月的 3 个月挪动平均线是多少?
A)300
B) 350
C) 400
D) 须要更多的信息
解决方案:(A)
X’ = (xt-3 + xt-2 + xt-1) /3
(200+300+400)/ 3 = 900/3 =300
14)查看上面的 ACF 图,你是否倡议将 AR 或 MA 用于 ARIMA 建模技术?
A)AR
B)MA
C)不能判断
解决方案:(A)
在以下状况下思考应用 MA 模型:如果差分序列的自相干函数(ACF)体现出显著的截尾或偏相关系数体现出拖尾,则思考增加一个模型的 MA 项。ACF 截止的滞后工夫就是 MA 项数。
然而,因为没有体现出显著的截尾,因而必须采纳 AR 模型。
15)假如你是 Analytics Vidhya 的一名数据科学家。你留神到 1 – 3 月对文章的评论减少了。而 11 月 - 12 月期间的浏览量有所降落。
以上陈说是否代表数据具备季节性?
A)真
B)假
C)不能判断
解决方案:(A)
是的,这是一个明确的季节性趋势,因为在特定工夫视图会发生变化。
请记住,“季节性”是指在特定的周期性工夫距离内呈现的变动。
16)以下哪个图形可用于检测时间序列数据中的季节性?
1. 多个盒图
2. 自相干
A)仅 1
B)仅 2
C)1 和 2
D)这些都不是
解决方案:(C)
季节性是在特定的周期距离内变动的存在。
散布的变动能够在多个盒图中察看到。因而,能够很容易地发现季节性。自相干图应在等于周期的滞后处显示峰值。
17)平稳性是工夫序列过程的现实属性。
A)是
B)假
解决方案:(A)
当满足以下条件时,工夫序列是安稳的。
- 平均值是恒定的,不依赖于工夫
- 自协方差函数仅取决于 s 和 t 的差 | s-t |。(其中 t 和 s 是工夫点)
- 思考的工夫序列是一个无限方差过程
这些条件是数学上示意要用于剖析和预测的工夫序列的必要先决条件。因而,平稳性是现实的属性。
18)假如你取得的工夫序列数据集只有 4 列(id,Time,X,Target)
如果给定窗口大小 2,特色 X 的滑动平均值是多少?
留神:X 栏代表滑动平均值。
A)
B)
C)
D)以上都不是
解决方案:(B)
X` = Xt-2 + Xt-1 / 2
依据以上公式:(100 +200)/ 2 = 150;(200 + 300)/ 2 = 250,依此类推。
19)设想一下,你正在解决工夫序列数据集。你的经理要求你建设一个高度精确的模型。你开始构建以下两种类型的模型。
模型 1:决策树模型
模型 2:工夫序列回归模型
在对这两个模型进行评估的最初,你发现模型 2 比模型 1 更好。
A)模型 1 不能像模型 2 那样映射线性关系
B)模型 1 总是比模型 2 更好
C)你不能将决策树与工夫序列回归进行比拟
D)这些都不是
解决方案:(A)
工夫序列模型相似于回归模型。因而,它擅于找到简略的线性关系。基于树的模型尽管无效,但在发现和利用线性关系方面却并不那么善于。
20)哪种类型的剖析对于依据以下类型的数据进行温度预测最无效。
A)工夫序列剖析
B)分类
C)聚类
D)以上都不是
解决方案:(A)
本题获取了间断几天的数据,因而最无效的剖析类型是工夫序列剖析。
21)温度 / 降水变量的一次差分是多少?
A)15,12.2,-43.2,-23.2,14.3,-7
B)38.17,-46.11,-4.98,14.29,-22.61
C)35,38.17,-46.11,-4.98,14.29,-22.61
D)36.21,-43.23,-5.43,17.44,-22.61
解决方案:(B)
73.17-35 = 38.17
27.05-73.17 = – 46.11,依此类推。
13.75 – 36.36 = -22.61
22)思考以下数据集:
**{23.32 32.33 32.88 28.98 33.16 26.33 29.88 32.69 18.98 21.23 26.66 29.89}
工夫序列滞后一个样本的自相干是什么?**
A) 0.26
B) 0.52
C) 0.13
D) 0.07
解决方案:(C)
ρˆ1 = PT t = 2(x t-1– x¯)(x t– x¯)PTt = 1(xt-x¯)^2
=(23.32-x′)(32.33-x′)+(32.33-x′)(32.88-x′)+···PT t = 1(xt -x′)^2
= 0.130394786
其中 x 是级数的平均值,为 28.0275
23)任何安稳工夫序列都能够近似为在各种频率下振荡的正弦和余弦的随机叠加。
A)真
B)假
解决方案:(A)
弱安稳工夫序列 xt 是无限方差过程,因而
- 平均值函数 µt 是常数,并且不依赖于工夫 t;并且(ii)定义的自协方差函数 γ(s,t)仅依赖于 s 和 t 的差 | s-t |。
在各种频率下振荡的正弦和余弦的随机叠加是白噪声。白噪声是强劲的或安稳的。如果白噪声变量也呈正态分布或高斯分布,则该序列也是严安稳的。
24)弱安稳工夫序列的自协方差函数不取决于_______?
A)xs 和 xt 的距离
B)h = | s – t |
C)在特定工夫点的地位
解决方案:(C)
通过定义上一个问题中形容的弱安稳工夫序列。
25)如果_____,则两个工夫序列联结安稳。
A)它们都是安稳的
B)穿插方差函数仅是滞后 h 的函数
C)仅 A
D)A 和 B
解决方案:(D)
联结平稳性是根据上述两个条件定义的。
26)在自回归模型中_______
A)因变量的以后值受自变量的以后值影响
B)因变量的以后值受自变量的以后值和过来值影响
C)因变量的以后值受因变量和自变量的过来值影响
D)以上都不是
解决方案:(C)
自回归模型基于这样的思维,即序列的以后值 xt 能够解释为 p 个过来值 xt-1,xt-2,…,xt- p 的函数,其中 p 决定了预测以后值所需的过来步进数。例如 xt = xt-1 -.90xt-2 + wt,
其中 xt- 1 和 xt- 2 是因变量和 wt 的过来值,白噪声能够示意独立值。
该示例能够扩大为包含相似于多元线性回归的多序列。
27)对于 MA(挪动平均值)模型,对 σ=1 和 θ=5 产生与对 σ=25 和 θ =1/5 雷同的自协方差函数。
A)真
B)假
解决方案:(A)
正确,因为 MA 模型的自协方差是可逆的
请留神,对于 MA(1)模型,对于 θ 和 1 /θ,ρ(h)雷同。
28)通过查看上面的 ACF 和 PACF 图,能够在工夫序列中包含多少个 AR 和 MA 项?
A)AR(1)MA(0)
B)AR(0)MA(1)
C)AR(2)MA(1)
D)AR(1)MA(2)
E)不能判断
解决方案:(B)
滞后 1 的强负相关表明 MA 只有 1 个显著滞后。浏览本文以取得更好的了解。
- https://www.analyticsvidhya.c…
29)对于白噪声,以下哪项是正确的?
A)均值 = 0
B)自协方差为 0
C)自协方差为 0(零滞后除外
D)二次方差
解决方案:(C)
白噪声过程必须具备恒定的均值,恒定的方差和无自协方差构造(滞后零(方差)除外)。
30)对于以下 MA(3)过程 yt = μ + Εt + θ1Εt-1 + θ2Εt-2 + θ3Εt-3,其中 σ t 是方差为 σ 2 的零均值白噪声过程。
A)在滞后 3 时 ACF = 0
B)在滞后 5 中 ACF = 0
C)在滞后 1 中 ACF = 1
D)在滞后 2 中 ACF = 0
E)在滞后 3 和滞后 5 中 ACF = 0
解决方案:(B)
回忆一下,MA(q)过程仅具备长度为 q 的记忆。这意味着,所有自相关系数在滞后 q 当前的值为零。这能够通过查看 MA 方程并看到只有过来的 q 个扰动项进入方程来看出。
因而,如果咱们向前迭代此方程超过 q 个周期,则扰动项的以后值将不再影响 y。因为滞后零的自相干函数是工夫 t 处的 y 与工夫 t 处的 y 的相关性(即 y_t 与本身的相关性),因而依据定义,滞后 0 处的自相干函数必须为 1。
31)思考上面的 AR(1)模型,其扰动项具备零均值和单位方差。yt = 0.4 + 0.2 yt-1 + ut, y 的(无条件)方差由____给出。
A)1.5
B)1.04
C)0.5
D)2
解决方案:(B)
扰动的方差除以(1 减去自回归系数的平方)
在这种状况下为:1 /(1-(0.2 ^ 2))= 1 / 0.96 = 1.041
32)pacf(局部自相干函数)对于辨别______是必须的。
A)AR 和 MA 模型:谬误
B)AR 和 ARMA 模型:正确
C)MA 和 ARMA 模型:谬误
D)ARMA 系列中的不同模型
解决方案:(B)
33)工夫序列的二次差分能够帮忙打消哪个趋势?
A)二次趋势
B)线性趋势
C)A 和 B 都是
D)以上都不是
解决方案:(A)
第一个差分示意为 xt = xt −xt−1. (1)
如咱们所见,第一个差分打消了线性趋势。第二个差分(即(1)的差分)能够打消二次趋势,依此类推。
34)以下哪种穿插验证技术更适宜工夫序列数据?
A)k- 折穿插验证
B)留一法穿插验证
C)Stratified Shuffle Split 穿插验证
D)前向链穿插验证
解决方案:(D)
工夫序列是有序数据。因而,必须对验证数据进行排序。前向链可确保这一点。其工作形式如下:
- fold 1:训练 [1],测试 [2]
- fold 2:训练 [1 2],测试 [3]
- fold 3:训练 [1 2 3],测试 [4]
- fold 4:训练 [1 2 3 4],测试 [5]
- fold 5:训练 [1 2 3 4 5],测试 [6]
35)BIC 比 AIC 更能惩办简单的模型。
A)真
B)假
解决方案:(A)
AIC = -2 ln(likelihood)+ 2 k,
BIC = -2 ln(likelihood)+ ln(N) k,
当:
k = 模型自由度
N = 察看数
在 N 绝对较低时(7 及以下),BIC 比 AIC 更能容忍自在参数,但在 N 绝对较高时则容忍度较低(因为 N 的自然对数大于 2)。
36)下图显示了 n = 60 个观测值的工夫序列的预计自相干和局部自相干。基于这些图,咱们应该____.
A)通过获取日志来转换数据
B)对序列求差分以获取安稳数据
C)将 MA(1)模型拟合到工夫序列
解决方案:(B)
自相干显示出确定的趋势,而局部自相干显示出稳定的趋势,在这种状况下,采纳对数是没有用的。对序列求差分以取得安稳序列是惟一的抉择。
37-38
37)应用下面给出的预计指数平滑度,并预测接下来 3 年(1998-2000 年)的温度
这些后果总结了简略指数平滑与工夫序列的拟合。
A)0.2,0.32,0.6
B)0.33,0.33,0.33
C)0.27,0.27,0.27
D)0.4,0.3,0.37
解决方案:(B)
指数平滑的预测值在 3 年中都是雷同的,因而咱们所须要的只是明年的值。平滑的表达式是
smootht = α yt + (1 – α) smooth t-1
因而,对于下一个点,平滑的下一个值(下一个察看的预测)为
smoothn = α yn + (1 – α) smooth n-1
= 0.39680.43 + (1 – 0.3968) 0.3968
= 0.3297
38)找出 1999 年气温预测的 95% 预测区间。
这些后果总结了简略指数平滑对工夫序列的拟合。
A)0.3297 2 * 0.1125
B)0.3297 2 * 0.121
C)0.3297 2 * 0.129
D)0.3297 2 * 0.22
解决方案:(B)
预测误差的标准偏差为
1 个周期为 0.1125
2 个周期为 0.1125 sqrt(1+α2) = 0.1125 * sqrt(1+ 0.39682) ≈ 0.121
39)以下哪个陈说是正确的?
- 如果 ARIMA 模型中的自回归参数(p)为 1,则示意序列中不存在自相干。
- 如果 ARIMA 模型中的挪动均匀成分(q)为 1,则示意序列中具备滞后 1 的自相干
- 如果 ARIMA 模型中的积分成分(d)为 0,则意味着系列不是安稳的。
A)仅 1
B)1 和 2 均
C)仅 2
D)所有陈说
解决方案:(C)
自回归重量:AR 代表自回归。自回归参数由 p 示意。当 p = 0 时,示意序列中不存在自相干。当 p = 1 时,示意序列自相干到一个滞后。
积分:在 ARIMA 工夫序列剖析中,积分用 d 示意。积分是微分的倒数。
- 当 d = 0 时,这意味着级数是安稳的,咱们不须要取其差。
- 当 d = 1 时,这意味着该序列不是安稳的,并且要使其安稳,咱们需要求第一差分。
- 当 d = 2 时,示意序列须要二次差分。
- 通常状况下,两个以上的差分是不牢靠的。
挪动均匀重量:MA 示意挪动均匀,用 q 示意。在 ARIMA 中,挪动均匀 q = 1 示意它是一个误差项,并且存在一个滞后的自相干。
40)在工夫序列预测问题中,如果第 1、2 和 3 季度的节令指数别离为 0.80、0.90 和 0.95。你对第四季度的季节性指数有何认识?
A)小于 1
B)大于 1
C)等于 1
D)季节性不存在
E)数据有余
解决方案:(B)
因为有四个季度,所以节令指数必须总计为 4。0.80 + 0.90 + 0.95 = 2.65,因而对于 4 的节令指数个季度必须是 4 -2.65 = 1.35,所以 B 是正确的答案。
原文链接:https://www.analyticsvidhya.c…
欢送关注磐创 AI 博客站:
http://panchuang.net/
sklearn 机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/