关于数据挖掘:R语言对用电负荷时间序列数据进行Kmedoids聚类建模和GAM回归附代码数据

35次阅读

共计 1512 个字符,预计需要花费 4 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=4146 

原文出处:拓端数据部落公众号

 最近咱们被客户要求撰写对于用电负荷工夫序列的钻研报告,包含一些图形和统计输入。

通过对用电负荷的消费者进行聚类,咱们能够提取典型的负荷 曲线 ,进步后续用电量预测的准确性,检测异样或监控整个智能电网(Laurinec 等人(2016),Laurinec 和 Lucká(2016))。第一个用例通过K-medoids 聚类办法提取典型的电力负荷曲线。

有 50 个长度为 672 的工夫序列(消费者),长度为 2 周的耗电量的工夫序列。这些测量数据来自智能电表。

维数太高,会产生 维数 咒骂。因而,咱们必须以某种形式升高维度。最好的办法之一是应用工夫序列示意,以缩小维数,缩小噪声并提取工夫序列的次要特色。

对于用电的两个季节性工夫序列(每日和每周季节性),基于模型的示意办法是提取典型用电量的最佳办法。

让咱们应用一种基于模型的根本示意办法 - 均匀季节性。在此还有一个十分重要的注意事项,对工夫序列进行归一化是对工夫序列进行每次聚类或分类之前的必要步骤。咱们想要提取典型的耗费曲线,而不是依据消耗量进行聚类。

维数上已大大降低。当初,让咱们应用 K -medoids 聚类办法来提取典型的消耗量。因为咱们不晓得要抉择适合的簇数,即先验信息,因而必须应用验证指数来确定最佳簇数。我将应用 Davies-Bouldin 指数进行评估。通过 Davies-Bouldin 指数计算,咱们心愿找到其最小值。

我将聚类数的范畴设置为 2 -7。

让咱们绘制评估的后果。

聚类的“最佳”数目是 7。

咱们绘制有 7 个聚类的聚类后果。

 

咱们能够看到 5 个典型的提取轮廓(簇的核心)。接下来的两个簇能够称为离群值。

当初,让咱们尝试一些更简单的办法来提取节令 GAM 回归系数。咱们能够提取每日和每周的季节性回归系数。

## [1] 50 53

因为 GAM 办法中应用样条曲线。让咱们对数据进行聚类并可视化其后果。

让咱们绘制 评估的后果。

 

聚类的最佳数目为 7。让咱们绘制后果。

 

 提取的生产数据比均匀季节性数据更平滑。当初,K 核心提取了 4 个典型的轮廓,并确定了 3 个簇。

我展现一些自适应示意的聚类后果,让咱们以DFT(离散傅立叶变换)办法为例,并提取前 48 个 DFT 系数。


dim(data_dft)
## [1] 50 48

让咱们绘制评估的后果。

咱们能够在 4 个簇中看到“肘部”。

 

这些后果能够较好解释。因而,基于模型的工夫序列示意在此用例中十分无效。

倡议在每天的工夫序列中应用与 FeaClip 一起的窗口办法。最大的长处是不须要与 FeaClip 办法一起进行标准化。


 
dim(data_feaclip)
## [1]  50 112

  

让咱们绘制评估的后果。

 

 

咱们能够看到当初呈现了 2 个“肘部”。最大的变动是在 2 到 3 之间,因而我将抉择 3。

可分离性好于 DFT。然而也能够查看具备不同数量聚类的其余后果。

论断

在本教程中,我展现了如何应用工夫序列示意办法来创立用电量的更多特色。而后,用工夫序列进行 K -medoids 聚类,并从创立的聚类中提取典型的负荷曲线。


最受欢迎的见解

1. 用 SPSS 预计 HLM 档次线性模型模型

2.R 语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

3. 基于 R 语言的 lmer 混合线性回归模型

4.R 语言 Gibbs 抽样的贝叶斯简略线性回归仿真剖析

5. 在 r 语言中应用 GAM(狭义相加模型)进行电力负荷工夫序列剖析

6. 应用 SAS,Stata,HLM,R,SPSS 和 Mplus 的分层线性模型 HLM

7.R 语言中的岭回归、套索回归、主成分回归:线性模型抉择和正则化

8.R 语言用线性回归模型预测空气质量臭氧数据

9.R 语言分层线性模型案例

正文完
 0