原文链接:http://tecdat.cn/?p=4146
原文出处:拓端数据部落公众号
最近咱们被客户要求撰写对于用电负荷工夫序列的钻研报告,包含一些图形和统计输入。
通过对用电负荷的消费者进行聚类,咱们能够提取典型的负荷曲线,进步后续用电量预测的准确性,检测异样或监控整个智能电网(Laurinec等人(2016),Laurinec和Lucká( 2016))。第一个用例通过K-medoids聚类办法提取典型的电力负荷曲线。
有50个长度为672的工夫序列(消费者),长度为2周的耗电量的工夫序列。这些测量数据来自智能电表。
维数太高,会产生维数的咒骂。因而,咱们必须以某种形式升高维度。最好的办法之一是应用工夫序列示意,以缩小维数,缩小噪声并提取工夫序列的次要特色。
对于用电的两个季节性工夫序列(每日和每周季节性),基于模型的示意办法是提取典型用电量的最佳办法。
让咱们应用一种基于模型的根本示意办法- 均匀季节性。在此还有一个十分重要的注意事项,对工夫序列进行归一化是对工夫序列进行每次聚类或分类之前的必要步骤。咱们想要提取典型的耗费曲线,而不是依据消耗量进行聚类。
维数上已大大降低。当初,让咱们应用K-medoids聚类办法来提取典型的消耗量。因为咱们不晓得要抉择适合的簇数,即先验信息,因而必须应用验证指数来确定最佳簇数。我将应用Davies-Bouldin指数进行评估。通过Davies-Bouldin指数计算,咱们心愿找到其最小值。
我将聚类数的范畴设置为2-7。
让咱们绘制评估的后果。
聚类的“最佳”数目是7。
咱们绘制有7个聚类的聚类后果。
咱们能够看到5个典型的提取轮廓 (簇的核心)。接下来的两个簇能够称为离群值。
当初,让咱们尝试一些更简单的办法来提取节令 GAM回归系数。 咱们能够提取每日和每周的季节性回归系数 。
## [1] 50 53
因为GAM办法中应用样条曲线 。让咱们对数据进行聚类并可视化其后果。
让咱们绘制 评估的后果。
聚类的最佳数目为7。让咱们绘制后果。
提取的生产数据比均匀季节性数据更平滑。 当初,K 核心提取了4个典型的轮廓,并确定了3个簇。
我展现一些自适应示意的聚类后果,让咱们以DFT(离散傅立叶变换)办法为例,并提取前48个DFT系数。
dim(data_dft)
## [1] 50 48
让咱们绘制评估的后果。
咱们能够在4个簇中看到“肘部”。
这些后果能够较好解释。因而,基于模型的工夫序列示意在此用例中十分无效 。
倡议在每天的工夫序列中应用与FeaClip一起的窗口办法。最大的长处是不须要与FeaClip办法一起进行标准化。
dim(data_feaclip)
## [1] 50 112
让咱们绘制评估的后果。
咱们能够看到当初呈现了2个“肘部”。最大的变动是在2到3之间,因而我将抉择3。
可分离性好于DFT。然而也能够查看具备不同数量聚类的其余后果。
论断
在本教程中,我展现了如何应用工夫序列示意办法来创立用电量的更多特色。而后,用工夫序列进行K-medoids聚类,并从创立的聚类中提取典型的负荷曲线。
最受欢迎的见解
1.用SPSS预计HLM档次线性模型模型
2.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)
3.基于R语言的lmer混合线性回归模型
4.R语言Gibbs抽样的贝叶斯简略线性回归仿真剖析
5.在r语言中应用GAM(狭义相加模型)进行电力负荷工夫序列剖析
6.应用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM
7.R语言中的岭回归、套索回归、主成分回归:线性模型抉择和正则化
8.R语言用线性回归模型预测空气质量臭氧数据
9.R语言分层线性模型案例