关于数据挖掘:R语言非参数PDF和CDF估计非参数分位数回归分析间歇泉GDP增长数据附代码数据

6次阅读

共计 3368 个字符,预计需要花费 9 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=29841

最近咱们被客户要求撰写对于非参数估计的钻研报告。在利用的设置中,咱们常常遇到分类数据类型和间断数据类型的组合

相熟传统非参数核平滑办法的人会明确,这些办法假设根底数据实质上是间断的,但事实往往并非如此。一种同时解决间断数据和分类数据存在的办法称为“频率”办法,其中数据被合成为对应于分类变量假如值的子集(“单元格”),而后才将密度或地位利用于每个单元格中残余的间断数据。

非参数频率办法被宽泛认为是不令人满意的,因为它们通常会导致应用样品决裂引起的大量效率损失。

在本文中,咱们通过许多教训利用来阐明 R 的应用。抉择每个应用程序是为了在利用的环境中突出显示特定的计量经济学办法。

非参数无条件 PDF 和 CDF 预计

间歇泉是位于黄石国家公园的旅游景点。这个蕴含 n = 272 次观测的驰名数据集由两个变量组成,以分钟为单位的喷发持续时间(以分钟为单位)和期待下一次喷发的工夫(以分钟为单位)。公园服务应用此数据集来模仿预期持续时间,具体取决于自上次喷发以来通过的工夫量。然而,对联结散布进行建模自身就很有意义,并且核预计器很容易揭示联结 PDF 和 CDF 的根本双峰性质。在本例中,咱们加载旧的间歇泉数据并计算密度和散布函数。后果如图所示。请留神,在此示例中,咱们一步进行带宽抉择和预计

R> Ful <- npst(~ eruptions + waiting, data = fal)
R> summary(f.fful)

R> summary(Fhful)

以下代码将生成图。

R> plot(f.fthful

如果用参数模型(例如二元正态(对称、单峰和枯燥递加)来模仿这种密度,当然无奈揭示核预计容易揭示的底层构造。

图:Old Faithful 数据的非参数多变量 PDF 和 CDF 估计值。


点击题目查阅往期内容

R 语言非参数办法:应用核回归平滑预计和 K -NN(K 近邻算法)分类预测心脏病数据

左右滑动查看更多

01

02

03

04

非参数条件 PDF 和 CDF 预计

咱们思考 GDP 增长,涵盖 1951-1998 年期间的 21 个地区。总共有 n = 1008 个观测值,以及两个变量,GDP 和年份。首先,咱们计算带宽。请留神,这可能须要一两分钟,具体取决于计算机的速度。咱们笼罩搜寻办法的默认容差,因为指标函数体现良好(当然通常不要这样做),而后咱们计算。请留神,在本例中,咱们一步进行带宽抉择和预计。

R> fat <- npns(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,

R> Fat <- npst(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,

图绘制了 GDP 面板生成的条件 PDF 和 CDF。以下代码将生成图。

R> plot

图显示,支出调配已从 1950 年代初的单峰调配演变为 1990 年代的显著双峰调配。此后果对带宽抉择具备鲁棒性,无论是应用简略的教训法令还是数据驱动的办法(如可能叉验证)都能够察看到。核办法很容易揭示这种演变,如果应用支出调配的参数模型(例如,单峰对数正态分布通常用于模仿支出调配),则很容易被疏忽。

非参数分位数回归

咱们再次思考 GDP 增长数据。首先,咱们计算穿插验证带宽的可能性(默认)。咱们笼罩了搜寻办法的默认容差,因为指标函数体现良好(当然,通常不要这样做)。而后咱们应用 Li 和 Racine(2008)的办法计算结果的条件分位数预计。例如,咱们计算第 25、50 和 75 条件分位数。请留神,这可能须要一两分钟,具体取决于计算机的速度。请留神,对于此示例,咱们首先以防止不必要的带宽对象从新计算。

R> bw <- npbw(formula = gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,
R> modq0.25 <- nptau = 0.25)
R> mo.q0.50 <- nbw, tau = 0.50)
R> mod.q0.75 <- npq, tau = 0.75)

图绘制了生成的分位数估计值。以下代码将生成图。

R> plot
R> lines(It$year, mode.q0.25quantile)

此应用程序的一个很好的性能是解释变量是有序的,并且每年存在多个观测值。将绘图函数与有序数据一起应用会生成一个箱线图,该箱线图很容易显示非平滑的第 25、50 和 75 个分位数。而后能够间接将这些非平滑分位数估计值与通过间接预计平滑 CDF 取得的估计值进行比拟,如图所示。

GDP 面板上的非参数分位数回归。

参考文献

Aitchison J,Aitken CGG(1976).“核办法的多元二元判断。”生物计量学,63(3),413-420。

Baiocchi G (2006).“Economic Applications of Nonparametric Methods.”Ph.d. thesis, University of York


点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R 语言非参数 PDF 和 CDF 预计、非参数分位数回归剖析间歇泉、GDP 增长数据》。

点击题目查阅往期内容

matlab 应用分位数随机森林(QRF)回归树检测异样值
逻辑回归、随机森林、SVM 反对向量机预测心脏病危险数据和模型诊断可视化 | 数据分享
贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归剖析免疫球蛋白、前列腺癌数据
用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
PYTHON 用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯和 KMEANS 聚类用户画像
PYTHON 集成机器学习:用 ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜寻超参数优化
R 语言集成模型:晋升树 boosting、随机森林、束缚最小二乘法加权均匀模型交融剖析工夫序列数据
Python 对商店数据进行 lstm 和 xgboost 销售量工夫序列建模预测剖析
R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言基于树的办法:决策树,随机森林,Bagging,加强树
R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
spss modeler 用决策树神经网络预测 ST 的股票
R 语言中应用线性模型、回归决策树主动组合特色因子程度
R 语言中自编基尼系数的 CART 回归决策树的实现
R 语言用 rle,svm 和 rpart 决策树进行工夫序列预测
python 在 Scikit-learn 中用决策树和随机森林预测 NBA 获胜者
python 中应用 scikit-learn 和 pandas 决策树进行 iris 鸢尾花数据分类建模和穿插验证
R 语言里的非线性模型:多项式回归、部分样条、平滑样条、狭义相加模型 GAM 剖析
R 语言用规范最小二乘 OLS,狭义相加模型 GAM,样条函数进行逻辑回归 LOGISTIC 分类
R 语言 ISLR 工资数据进行多项式回归和样条回归剖析
R 语言中的多项式回归、部分回归、核平滑和平滑样条回归模型
R 语言用泊松 Poisson 回归、GAM 样条曲线模型预测骑自行车者的数量
R 语言分位数回归、GAM 样条曲线、指数平滑和 SARIMA 对电力负荷工夫序列预测 R 语言样条曲线、决策树、Adaboost、梯度晋升 (GBM) 算法进行回归、分类和动静可视化
如何用 R 语言在机器学习中建设集成模型?
R 语言 ARMA-EGARCH 模型、集成预测算法对 SPX 理论稳定率进行预测在 python 深度学习 Keras 中计算神经网络集成模型 R 语言 ARIMA 集成模型预测工夫序列剖析 R 语言基于 Bagging 分类的逻辑回归 (Logistic Regression)、决策树、森林剖析心脏病患者
R 语言基于树的办法:决策树,随机森林,Bagging,加强树
R 语言基于 Bootstrap 的线性回归预测置信区间预计办法
R 语言应用 bootstrap 和增量法计算狭义线性模型(GLM)预测置信区间
R 语言样条曲线、决策树、Adaboost、梯度晋升(GBM) 算法进行回归、分类和动静可视化
Python 对商店数据进行 lstm 和 xgboost 销售量工夫序列建模预测剖析
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
Matlab 建设 SVM,KNN 和奢侈贝叶斯模型分类绘制 ROC 曲线
matlab 应用分位数随机森林(QRF)回归树检测异样值

正文完
 0