关于算法:R语言用Rcpp加速MetropolisHastings抽样估计贝叶斯逻辑回归模型的参数

原文链接：http://tecdat.cn/?p=6690

原文出处：拓端数据部落公众号

在最近的一篇文章中，我形容了一个Metropolis-in-Gibbs采样器，用于预计贝叶斯逻辑回归模型的参数。

这篇文章就此问题进行了钻研，以展现Rcpp如何帮忙克服这一瓶颈。 TLDR：只需用C ++编写log-posterior而不是矢量化R函数，咱们就能够大大减少运行工夫。

我模仿了模型的数据：

对于这个剖析，我编写了两个Metropolis-Hastings（MH）采样器：sample\_mh（）和sample\_mh\_cpp（）。前者应用对数后验编码作为向量化R函数。后者应用C ++（log\_post.cpp）中的log-posterior编码，并应用Rcpp编译成R函数。Armadillo库对C ++中的矩阵和向量类很有用。

因而，在每次迭代中，提出了系数向量。上面用红线示意链，示意生成数据的参数值。

burnin <- 1000iter <- 100000p <- ncol(X)cpp(X, Y, iter = iter, jump = .03)par(mfrow=c(2,2))plot(mh_cpp\[\[1\]\]\[burnin:iter,'intercept'\])abline(h= -1, col='red')

仿佛趋同。均匀承受概率在采样运行中收敛到约20％。

那么Rcpp实现与R实现相比如何呢？Rcpp的运行工夫显著较低。当log-posterior被编码为矢量化R函数时，采样器绝对于Rcpp实现运行速度大概慢7倍（样本大小为100）。下图显示了样本大小为100到5000的绝对运行工夫，增量为500。

for(i in 1:length(s){ benchmark(mh(X, Y, iter = iter)  time\[i\] <- time/rcppplot(ss, time)

直观地说，C ++带来了一些效率增益。但很显著，Rcpp是解决代码瓶颈的好办法。

原文链接：http://tecdat.cn/?p=6690

原文出处：拓端数据部落公众号

十分感谢您浏览本文，有任何问题请在上面留言！