原文链接:http://tecdat.cn/?p=6690

原文出处:拓端数据部落公众号

在最近的一篇文章中,我形容了一个Metropolis-in-Gibbs采样器,用于预计贝叶斯逻辑回归模型的参数。

这篇文章就此问题进行了钻研,以展现Rcpp如何帮忙克服这一瓶颈。  TLDR:只需用C ++编写log-posterior而不是矢量化R函数,咱们就能够大大减少运行工夫。 

我模仿了模型的数据:

对于这个剖析,我编写了两个Metropolis-Hastings(MH)采样器:sample\_mh()和sample\_mh\_cpp()。前者应用对数后验编码作为向量化R函数。后者应用C ++(log\_post.cpp)中的log-posterior编码,并应用Rcpp编译成R函数。Armadillo库对C ++中的矩阵和向量类很有用。


 因而,在每次迭代中,提出了系数向量。上面用红线示意链,示意生成数据的参数值。

burnin <- 1000iter <- 100000p <- ncol(X)cpp(X, Y, iter = iter, jump = .03)par(mfrow=c(2,2))plot(mh_cpp\[\[1\]\]\[burnin:iter,'intercept'\])abline(h= -1, col='red')

仿佛趋同。均匀承受概率在采样运行中收敛到约20%。

那么Rcpp实现与R实现相比如何呢?Rcpp的运行工夫显著较低。当log-posterior被编码为矢量化R函数时,采样器绝对于Rcpp实现运行速度大概慢7倍(样本大小为100)。下图显示了样本大小为100到5000的绝对运行工夫,增量为500。

for(i in 1:length(s){ benchmark(mh(X, Y, iter = iter)  time\[i\] <- time/rcppplot(ss, time)

直观地说,C ++带来了一些效率增益。但很显著,Rcpp是解决代码瓶颈的好办法。

十分感谢您浏览本文,有任何问题请在上面留言!