关于数据挖掘:R语言非参数PDF和CDF估计非参数分位数回归分析间歇泉GDP增长数据

39次阅读

共计 1974 个字符,预计需要花费 5 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=29841

最近咱们被客户要求撰写对于非参数估计的钻研报告。在利用的设置中,咱们常常遇到分类数据类型和间断数据类型的组合。相熟传统非参数核平滑办法的人会明确,这些办法假设根底数据实质上是间断的,但事实往往并非如此。一种同时解决间断数据和分类数据存在的办法称为“频率”办法,其中数据被合成为对应于分类变量假如值的子集(“单元格”),而后才将密度或地位利用于每个单元格中残余的间断数据。

非参数频率办法被宽泛认为是不令人满意的,因为它们通常会导致应用样品决裂引起的大量效率损失。​

在本文中,咱们通过许多教训利用来阐明 R 的应用。抉择每个应用程序是为了在利用的环境中突出显示特定的计量经济学办法。

[]() 非参数无条件 PDF 和 CDF 预计

间歇泉是位于黄石国家公园的旅游景点。这个蕴含 n = 272 次观测的驰名数据集由两个变量组成,以分钟为单位的喷发持续时间(以分钟为单位)和期待下一次喷发的工夫(以分钟为单位)(期待)。公园服务应用此数据集来模仿预期持续时间,具体取决于自上次喷发以来通过的工夫量。然而,对联结散布进行建模自身就很有意义,并且核预计器很容易揭示联结 PDF 和 CDF 的根本双峰性质。在本例中,咱们加载旧的间歇泉数据并计算密度和散布函数。后果如图所示。请留神,在此示例中,咱们一步进行带宽抉择和预计

R> Ful <- npst(~ eruptions + waiting, data = fal)
R> summary(f.fful)

R> summary(Fhful)

 

以下代码将生成图。

R> plot(f.fthful

如果用参数模型(例如二元正态(对称、单峰和枯燥递加)来模仿这种密度,当然无奈揭示核预计容易揭示的底层构造。

 图:Old Faithful 数据的非参数多变量 PDF 和 CDF 估计值。

[]() 非参数条件 PDF 和 CDF 预计

咱们思考 Giovanni Baiocchi(Baiocchi 2006)的 GDP 增长,涵盖 1951-1998 年期间的 21 个地区。总共有 n = 1,008 个观测值,以及两个变量,GDP 和年份。首先,咱们计算带宽。请留神,这可能须要一两分钟,具体取决于计算机的速度。咱们笼罩搜寻办法的默认容差,因为指标函数体现良好(当然通常不要这样做),而后咱们计算 npcdens 对象。请留神,在本例中,咱们一步进行带宽抉择和预计。

R> fat <- npns(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,

 

R> Fat <- npst(gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,

 

图绘制了意大利 GDP 面板生成的条件 PDF 和 CDF。以下代码将生成图。

R> plot

图显示,支出调配已从 1950 年代初的单峰调配演变为 1990 年代的显著双峰调配。此后果对带宽抉择具备鲁棒性,无论是应用简略的教训法令还是数据驱动的办法(如可能叉验证)都能够察看到。核办法很容易揭示这种演变,如果应用支出调配的参数模型(例如,单峰对数正态分布通常用于模仿支出调配),则很容易被疏忽。

[]() 非参数分位数回归

咱们再次思考乔瓦尼·拜奥奇(Giovanni Baiocchi)的 GDP 增长。首先,咱们计算穿插验证带宽的可能性(默认)。咱们笼罩了搜寻办法的默认容差,因为指标函数体现良好(当然,通常不要这样做)。而后咱们应用 Li 和 Racine(2008)的办法计算结果的条件分位数预计。例如,咱们计算第 25、50 和 75 个条件分位数。请留神,这可能须要一两分钟,具体取决于计算机的速度。请留神,对于此示例,咱们首先调用 npcdistbw 以防止不必要的带宽对象从新计算。

R> bw <- npbw(formula = gdp ~ year,
+ tol = 0.1,
+ ftol = 0.1,
R> modq0.25 <- nptau = 0.25)
R> mo.q0.50 <- nbw, tau = 0.50)
R> mod.q0.75 <- npq, tau = 0.75)

图绘制了生成的分位数估计值。以下代码将生成图。

R> plot
R> lines(It$year, mode.q0.25quantile)

此应用程序的一个很好的性能是解释变量是有序的,并且每年存在多个观测值。将绘图函数与有序数据一起应用会生成一个箱线图,该箱线图很容易显示非平滑的第 25、50 和 75 个分位数。而后能够间接将这些非平滑分位数估计值与通过间接预计平滑 CDF 取得的估计值进行比拟,如图所示。

 

GDP 面板上的非参数分位数回归。

[]() 参考文献

Aitchison J,Aitken CGG(1976).“核办法的多元二元判断。”生物计量学,63(3),413-420。

Baiocchi G (2006).“Economic Applications of Nonparametric Methods.”Ph.d. thesis, University of York

正文完
 0