乐趣区

关于数据挖掘:R语言武汉流动人口趋势预测灰色模型GM11ARIMA时间序列logistic逻辑回归模型

全文链接:http://tecdat.cn/?p=32496

原文出处:拓端数据部落公众号

人口流动与迁徙,作为人类产生以来就存在的一种社会景象,随同着人类文明的不断进步从未间断。

人力资源是社会文化提高、人民富裕幸福、国家人寿年丰的外围推动力量。以后,我国经济正处于从以政府主导的投资驱动型的经济“旧常态”向以市场需求为主导的经济“新常态”转型过渡期。

本文帮忙客户综合使用 R 语言灰色预测模型和 logistic 逻辑回归模型,以及综合使用 ARIMA 模型和 logistic 模型,失去武汉市外省流入人口规模的预测。

文献回顾

国内对于流动人口的定量预测模型有很多, 如马尔萨斯模型 1、马尔可夫链模型 [2]、指数平滑预测模型[3]、宋健模型、BP 神经网络模型、单变量的双曲模型[4]、零碎动力学模型、Leslie 人口预测模型[5]、年龄移算法[6-8] 以及 CPPS 软件预测等。然而, 在经济学和管理学领域内﹐最为次要的有三种, 别离是:

第一, 灰色预测模型。1982 年, 我国学者邓聚龙传授创建了灰色零碎实践﹐灰色零碎实践的钻研对象是“局部信息已知, 局部信息未知”的“小样本”、“贫信息”不确定性零碎。GM(1,1)模型是最罕用的一种灰色模型, 由一个只含单变量的一阶微分方程形成的模型。国内不少学者使用灰色预测模型对我国总人口规模的发展趋势进行预测 [9-11]。还有一部分学者从区域倒退的角度登程, 构建了一系列城市人口或区域流动人口的灰色预测模型[12 一 14]。为了缩小预测的误差, 学者们进一步修改了 GM(1,1) 灰色预测模型,构建了“等维灰数递补动静预测”模型对人口进行定量预测[15]

第二,Logistic 曲线模型。Logistic 曲线呈 S 形,称为成长曲线。Logistic 方程最早由比利时数学家 P. F. Verhult 于 1838 年提出。但长期湮没﹐直到 20 世纪 20 年代被生物学家与人口统计学家 R.Pearl 和 L.J. Reed 从新发现。经不断完善和倒退,现宽泛用于人口和商业剖析中。我国学者多使用 Logistic 模型预测我国某地区的人口数量、流动人口规模等[16—20]

第三, 工夫序列模型。工夫序列分析方法是伯克斯和詹金斯(Box-Jenkins)1976 年提出的。

数据起源与解决

将武汉市外省流入人口的工夫序列记为{Yt}。

武汉市外来流入人口数据表

ARIMA 模型

为升高原始数据随机稳定的影响,先要对原始数据进行平滑解决,本文采纳罕用的三点挪动平均法。计算公式如下:

首端点数据进行挪动均匀时,Yt-1取Yt,末端点数据进行挪动均匀时,Yt+1取Yt。

另外,因为取对数,不会扭转数据的性质和关系,且失去的数据易打消异方差。


acf(dy)

而后用自相干图查看序列的平稳性,,最初发现一阶差分后的序列是安稳的。
 \
上面对平稳性序列 建设 模型 , 偏相关系数在滞后 1 期后很快地趋向于 0,所以取 p =1 , 自相关系数图形具备拖尾性,所以初步判断为 ar(1)模型。

参数估计

arima(dy,order=c(p,0,q) )
which.min(aiclist$AIC)

尝试不同的 p 和 q 的值,得出最优 AIC 的模型。

从 AIC 的后果来看,arima(2,1,1)模型领有最小的 AIC 值,因而为最优模型,因而将 arima(2,1,1)模型作为最优模型。

对残差序列进行白噪声测验,通常思考残差序列的随机性,即用伯克斯. 皮尔斯 提出的 I 统计量进行测验,用修改的 I 统计量:

Box.test(model$residuals,type="Ljung")

在这里 X -squared 的值就是 0.21927,概率值为 0.6396, 阐明回绝原假如。\
犯第一类谬误的概率为 0.6396,这阐明残差序列互相独立即为白噪声序列的概率很大,故不能回绝残差序列是一个白噪声序列,测验通过。

单位根平稳性测验 测验

建设 arima 模型进行比拟

ARIMA 模型预测

pred=predict(model, 15)$pred

绘制预测序列工夫图

plot(pred,type="b" ,main="ARIMA 模型预测")

而 arima 模型预测的数据开始稳定较大,到前面有逐步安稳的趋势。

建设灰色模型 GM(1,1)对应的函数

GM11<-function(x0,t,x){     #x0 为输出训练数据序列列,t 为预测个数,x 为原始数据(训练数据 + 测试集)x1<-cumsum(x0) #一次累加生成序列 1 -AG0 序列  
  b<-numeric(length(x0)-1)  
  n<-length(x0)-1  
  for(i in 1:n){ #生成 x1 的紧邻均值生成序列  
    b[i]<--(x1[i]+x1[i+1])/2  
    b} #得序列 b,即为 x1 的紧邻均值生成序列  
  D<-numeric(length(x0)-1)  
  D[]<-1  
  B<-cbind(b,D)  
  BT<-t(B)# 做逆矩阵

计算相对误差

e2<-numeric(length(x0))  
  for(s in 1:length(x0)){e2[s]<-(abs(e[s])/x0[s]) #得相对误差  
  }  
  cat("绝对残差:",'\n',e2,'\n','\n')  
  cat("残差平方和 =",sum(e^2),'\n')  
  cat("均匀相对误差 =",sum(e2)/(length(e2)-1)*100,"%",'\n')  
  cat("绝对精度 =",(1-(sum(e2)/(length(e2)-1)))*100,"%",'\n','\n')

后验差比值测验

avge<-mean(abs(e));esum<-sum((abs(e)-avge)^2);evar=esum/(length(e)-1);se=sqrt(evar)  #计算残差的方差

画出输出序列 x0 的预测序列及 x0 的比拟图像

plot(xy,col='blue',type='b',pch=16,xlab='工夫序列',ylab='值')  
  points(x,col='red',type='b',pch=4)

拟合模型

GM11(train,length(mynx),mynx)

预测 15 年的人口数


GM11(train,length(myn

logistic 逻辑回归模型

glm(as.numeric(yy[1:lengt

预测

predict(model,newd

参考文献

[1]林泽楷,许梦瑶,陈以丙.人口预测模型的优化[J].科技致
富向导,2011(8):89-89.

[2]昝欣,宗鹏,吴祈宗.马尔可夫链在高校教师人才流动预测
中的利用[J].科技进步与对策,2007,24(1):185-187.

[3]涂雄苓,徐海云.ARlMA与指数平滑法在我国人口预测中的
比拟钻研[J].统计与决策,2009(16):21-23.

[4]杨辉.上海市流动人口发展趋势与预测[J].人口学刊,1995
(2):31-34.

[5]冯守平.中国人口倒退预测模型的构建与利用[J].统计与
决策,2010(15):24-27.

[6]胡启迪,杨庆中,桂世勋,等.上海市区人口迁移预测模型的
钻研[J].人口与经济,1986(1):17-22.

[7]周德禄.经济技术开发区人口变动预测实证钻研———以青
岛经济技术开发区为例[J].东岳论丛,2006,27(5):60-63.

[8]路锦非,王桂新.我国将来城镇人口规模及人口构造变动预
测[J].东南人口,2010(4):1-6.

[9]郝永红,王学萌.灰色动静模型及其在人口预测中的利用
[J].数学的实际与意识,2002,32(5):813-820.

[10]周诗国.我国人口的灰色预测模型钻研及其利用[J].数理
医药学杂志,2005,18(4):307-309.

[11]陈作清,李远平,吴霞,等.基于灰色预测的我国人口预测
模型剖析[J].中南民族大学学报:自然科学版,2008,27
(1):111-114.

[12]周瑞平.GM(1,1)模型灰色预测法预测城市人口规模[J].
内蒙古师范大学学报:自然科学版,2005,34(1):81-83.

[13]郑元世,张启敏.银川市人口的灰色预测[J].辽宁工学院
学报,2008,27(5):346-350.

[14]李群,董守义,孙立成,等.我国高层次人才倒退预测与对
策[J].系统工程实践与实际,2008,28(2):125-130.

[15]李晓梅.城市流动人口预测模型探讨[J].南京人口治理干
部学院学报,2006,22(4):26-29.

[16]亓昕.北京将来流动人口预测办法探讨及发展趋势[J].人
口与经济,1999(3):52-56.

[17]武萍,陶静.沈阳市流动人口预测与剖析[J].锦州师范学
院学报:自然科学版,2001,22(3):69-71.

[18]李振福.长春市城市人口的Logistic模型预测[J].吉林师
范大学学报:自然科学版,2003(1):16-19.


最受欢迎的见解

1. 在 python 中应用 lstm 和 pytorch 进行工夫序列预测

2.python 中利用长短期记忆模型 lstm 进行工夫序列预测剖析

3.Python 用 RNN 循环神经网络:LSTM 长期记忆、GRU 门循环单元、回归和 ARIMA 对 COVID-19 新冠疫情新增人数工夫序列

4.Python TensorFlow 循环神经网络 RNN-LSTM 神经网络预测股票市场价格工夫序列和 MSE 评估准确性

5.r 语言 copulas 和金融工夫序列案例

6.R 语言用 RNN 循环神经网络、LSTM 长短期记忆网络实现工夫序列长期利率预测

7.Matlab 创立向量自回归(VAR)模型剖析消费者价格指数 (CPI) 和失业率工夫序列

8.r 语言 k -shape 工夫序列聚类办法对股票价格工夫序列聚类

9. R 语言联合新冠疫情 COVID-19 股票价格预测:ARIMA,KNN 和神经网络工夫序列剖析

退出移动版