关于数据挖掘:函数型数据分析部分省市新冠疫情数据

36次阅读

共计 1516 个字符,预计需要花费 4 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=28716

作者:Mingji Tang

统计学中传统的数据类型有截面数据和工夫序列数据。这两者都只能在某一纵向或横向上探索数据,且局部前提条件又很难满足。而函数型数据连续型函数与离散型函数长期以来的拆散状态,实现了离散和间断的适度。它很少依赖于模型构建及假如条件。通过应用函数型数据,咱们能够挖掘新冠疫情数据中更多的信息。

一、 数据的收集与整顿

抉择人口流动较大的北京、上海、广东,以及与武汉相邻的重庆、湖南、江西、安徽、河南,一共八个省级行政区的确诊人数变动数据作为样本。

思考到各省市人口数量差别较大,应用确诊人数和总人数的比例作为数据钻研对象更加正当。二、建设函数型数据对象

采纳 B 样条基线性函数拟合离散的数据。应用最小二乘法失去系数。

而后通过毛糙惩办来进步函数的光滑性。设置惩办项为。

则新的须要最小化的式子为:

能够失去润滑化之后的函数型数据。

三、函数型数据形容

失去数据之后能够计算数据的均值,方差,协方差,以及钻研二次导数和导数的关系能够失去相位图。

四、 函数型数据主成分剖析

模拟传统数据的主成分剖析,能够找到离散型数据的主成分分析方法。权函数满足

某一数据对于这个权函数的得分记为

咱们寻找第一个权函数为

前面的权函数为

我的项目后果

以上别离为函数型数据的均值,方差,协方差以及相位图。(其中粗线局部是由均值绘制的相位图。)疫情的倒退能够看作一个由安稳态逐步倒退为不平稳态,最初再回到安稳态的过程。相位图中,咱们通常把加速度称为势能,而把速度称为动能。在第一象限阶段,病毒的流传本身的流传力度为次要势能,人们的防疫措施尚未建设齐全,因而势能为正,一直转化为动能;在第 12 天左右的地位,势能由正变成负,函数的凹凸性产生了变动,也就是说人们的防疫管控力度曾经成为了次要势能,疫情的流传达到了拐点,增长速度失去了管制;在第 22 天左右的地位,动能由正变成负,函数的枯燥性产生了变动,疫情的流传达到了极值点,感化人数从增长变为了缩小;轨迹进入三四象限之后,疫情就逐步缓解,当感化人数逐步靠近 0 的时候,缩小的速度也会逐步放缓,也就是加速度会回到一个较小的正值,最终当动能回到 0 时,也就意味着疫情的根本完结。

以上为前两个主成分,并能够绘制二维的主成分得分图。能够看到前两个主成分蕴含的数据信息曾经超过了 92%。

能够看到,从横坐标来看,右侧的北京,重庆,江西三省市的第一主成分得分较高,也就意味着和第一主成分函数正向吻合,在中期的值较大,即疫情巅峰期间的感化人口比例较大;反之,河南,广东,湖南,上海四省市第一主成分得分较低,疫情巅峰期间感化人口比例较小。再察看纵坐标,次要反映了前期即 3 月之后的疫情感化人口比例,能够发现北京,广东两地仍处于较高的程度,这也与两地人口密度大,人口流量大无关。而广西,安徽等地感化人口比例曾经根本趋于 0。

对于作者

在此对 Mingji Tang 对本文所作的奉献示意诚挚感激,他特长工夫序列、机器学习、回归剖析。



最受欢迎的见解

1. R 语言联合新冠疫情 COVID-19 股票价格预测:ARIMA,KNN 和神经网络工夫序列

2.Python 用 RNN 循环神经网络:LSTM 长期记忆、GRU 门循环单元、回归和 ARIMA 对 COVID-19 新冠疫情新增人数

3.MATLAB 用高斯曲线拟合模型剖析疫情

4. 疫情下的新闻数据察看

5.MATLAB 用高斯曲线拟合模型剖析疫情

6. 在 R 语言中应用航空公司简单网络对疫情进行建模

7. R 软件 SIR 模型网络结构扩散过程模仿

8.R 语言和 Stan,JAGS:用 rstan,rjag 建设多元贝叶斯线性回归预测选举

9.R 语言和 JAGS:用 rjag 建设多元贝叶斯线性回归预测选举

正文完
 0