全文链接:http://tecdat.cn/?p=29841

最近咱们被客户要求撰写对于非参数估计的钻研报告。在利用的设置中,咱们常常遇到分类数据类型和间断数据类型的组合

相熟传统非参数核平滑办法的人会明确,这些办法假设根底数据实质上是间断的,但事实往往并非如此。一种同时解决间断数据和分类数据存在的办法称为“频率”办法,其中数据被合成为对应于分类变量假如值的子集(“单元格”),而后才将密度或地位利用于每个单元格中残余的间断数据。

非参数频率办法被宽泛认为是不令人满意的,因为它们通常会导致应用样品决裂引起的大量效率损失。

在本文中,咱们通过许多教训利用来阐明R的应用。抉择每个应用程序是为了在利用的环境中突出显示特定的计量经济学办法。

非参数无条件PDF和 CDF预计

间歇泉是位于黄石国家公园的旅游景点。这个蕴含 n = 272 次观测的驰名数据集由两个变量组成,以分钟为单位的喷发持续时间(以分钟为单位)和期待下一次喷发的工夫(以分钟为单位)。公园服务应用此数据集来模仿预期持续时间,具体取决于自上次喷发以来通过的工夫量。然而,对联结散布进行建模自身就很有意义,并且核预计器很容易揭示联结 PDF 和 CDF 的根本双峰性质。在本例中,咱们加载旧的间歇泉数据并计算密度和散布函数。后果如图所示。请留神,在此示例中,咱们一步进行带宽抉择和预计

R> Ful <- npst(~ eruptions + waiting, data = fal)R> summary(f.fful)

R> summary(Fhful)

以下代码将生成图。

R> plot(f.fthful

如果用参数模型(例如二元正态(对称、单峰和枯燥递加)来模仿这种密度,当然无奈揭示核预计容易揭示的底层构造。

图 :Old Faithful 数据的非参数多变量 PDF 和 CDF 估计值。


点击题目查阅往期内容

R语言非参数办法:应用核回归平滑预计和K-NN(K近邻算法)分类预测心脏病数据

左右滑动查看更多

01

02

03

04

非参数条件PDF和CDF预计

咱们思考GDP增长,涵盖1951-1998年期间的21个地区。总共有n = 1008个观测值,以及两个变量,GDP和年份。首先,咱们计算带宽。请留神,这可能须要一两分钟,具体取决于计算机的速度。咱们笼罩搜寻办法的默认容差,因为指标函数体现良好(当然通常不要这样做),而后咱们计算。请留神,在本例中,咱们一步进行带宽抉择和预计。

R> fat <- npns(gdp ~ year,+ tol = 0.1,+ ftol = 0.1,

R> Fat <- npst(gdp ~ year,+ tol = 0.1,+ ftol = 0.1,

图绘制了 GDP 面板生成的条件 PDF 和 CDF。以下代码将生成图 。

R> plot

图显示,支出调配已从1950年代初的单峰调配演变为1990年代的显著双峰调配。此后果对带宽抉择具备鲁棒性,无论是应用简略的教训法令还是数据驱动的办法(如可能叉验证)都能够察看到。核办法很容易揭示这种演变,如果应用支出调配的参数模型(例如,单峰对数正态分布通常用于模仿支出调配),则很容易被疏忽。

非参数分位数回归

咱们再次思考GDP增长数据。首先,咱们计算穿插验证带宽的可能性(默认)。咱们笼罩了搜寻办法的默认容差,因为指标函数体现良好(当然,通常不要这样做)。而后咱们应用Li和Racine(2008)的办法计算结果的条件分位数预计。例如,咱们计算第 25、50 和 75 条件分位数。请留神,这可能须要一两分钟,具体取决于计算机的速度。请留神,对于此示例,咱们首先以防止不必要的带宽对象从新计算。

R> bw <- npbw(formula = gdp ~ year,+ tol = 0.1,+ ftol = 0.1,R> modq0.25 <- nptau = 0.25)R> mo.q0.50 <- nbw, tau = 0.50)R> mod.q0.75 <- npq, tau = 0.75)

图绘制了生成的分位数估计值。以下代码将生成图。

R> plotR> lines(It$year, mode.q0.25quantile )

此应用程序的一个很好的性能是解释变量是有序的,并且每年存在多个观测值。将绘图函数与有序数据一起应用会生成一个箱线图,该箱线图很容易显示非平滑的第 25、50 和 75 个分位数。而后能够间接将这些非平滑分位数估计值与通过间接预计平滑CDF取得的估计值进行比拟,如图所示。

GDP 面板上的非参数分位数回归。

参考文献

Aitchison J, Aitken CGG (1976).“核办法的多元二元判断。”生物计量学,63(3),413-420。

Baiocchi G (2006). “Economic Applications of Nonparametric Methods.” Ph.d. thesis, University of York


点击文末 “浏览原文”

获取全文残缺代码数据资料。

本文选自《R语言非参数PDF和CDF预计、非参数分位数回归剖析间歇泉、GDP增长数据》。

点击题目查阅往期内容

matlab应用分位数随机森林(QRF)回归树检测异样值
逻辑回归、随机森林、SVM反对向量机预测心脏病危险数据和模型诊断可视化|数据分享
贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归剖析免疫球蛋白、前列腺癌数据
用加性多元线性回归、随机森林、弹性网络模型预测鲍鱼年龄和可视化
PYTHON用户散失数据挖掘:建设逻辑回归、XGBOOST、随机森林、决策树、反对向量机、奢侈贝叶斯和KMEANS聚类用户画像
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜寻超参数优化
R语言集成模型:晋升树boosting、随机森林、束缚最小二乘法加权均匀模型交融剖析工夫序列数据
Python对商店数据进行lstm和xgboost销售量工夫序列建模预测剖析
R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R语言基于树的办法:决策树,随机森林,Bagging,加强树
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
spss modeler用决策树神经网络预测ST的股票
R语言中应用线性模型、回归决策树主动组合特色因子程度
R语言中自编基尼系数的CART回归决策树的实现
R语言用rle,svm和rpart决策树进行工夫序列预测
python在Scikit-learn中用决策树和随机森林预测NBA获胜者
python中应用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和穿插验证
R语言里的非线性模型:多项式回归、部分样条、平滑样条、 狭义相加模型GAM剖析
R语言用规范最小二乘OLS,狭义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类
R语言ISLR工资数据进行多项式回归和样条回归剖析
R语言中的多项式回归、部分回归、核平滑和平滑样条回归模型
R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量
R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷工夫序列预测R语言样条曲线、决策树、Adaboost、梯度晋升(GBM)算法进行回归、分类和动静可视化
如何用R语言在机器学习中建设集成模型?
R语言ARMA-EGARCH模型、集成预测算法对SPX理论稳定率进行预测在python 深度学习Keras中计算神经网络集成模型R语言ARIMA集成模型预测工夫序列剖析R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林剖析心脏病患者
R语言基于树的办法:决策树,随机森林,Bagging,加强树
R语言基于Bootstrap的线性回归预测置信区间预计办法
R语言应用bootstrap和增量法计算狭义线性模型(GLM)预测置信区间
R语言样条曲线、决策树、Adaboost、梯度晋升(GBM)算法进行回归、分类和动静可视化
Python对商店数据进行lstm和xgboost销售量工夫序列建模预测剖析
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化剖析
R语言用主成分PCA、 逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
Matlab建设SVM,KNN和奢侈贝叶斯模型分类绘制ROC曲线
matlab应用分位数随机森林(QRF)回归树检测异样值