关于算法:R语言贝叶斯MCMC用rstan建立线性回归模型分析汽车数据和可视化诊断

原文链接 http://tecdat.cn/?p=23255

本文将议论Stan以及如何在R中应用rstan创立Stan模型。只管Stan提供了应用其编程语言的文档和带有例子的用户指南，但对于初学者来说，这可能是很难了解的。

Stan

Stan是一种用于指定统计模型的编程语言。它最常被用作贝叶斯剖析的MCMC采样器。马尔科夫链蒙特卡洛（MCMC）是一种抽样办法，容许你在不晓得散布的所有数学属性的状况下预计一个概率分布。它在贝叶斯推断中特地有用，因为后验散布往往不能写成表达式。要应用Stan，用户要写一个Stan程序，代表他们的统计模型。这个程序指定了模型中的参数和指标后验密度。Stan代码被编译并与数据一起运行，输入一组参数的后验模仿。Stan与最风行的数据分析语言，如R、Python、shell、MATLAB、Julia和Stata的接口。咱们将专一于在R中应用Stan。

`rstan`

rstan容许R用户实现贝叶斯模型。你能够应用相熟的公式和data.frame语法（如lm()）来拟合模型。通过为罕用的模型类型提供预编译的stan代码来实现这种更简略的语法。它应用起来很不便，但只限于特定的 "罕用 "模型类型。如果你须要拟合不同的模型类型，那么你须要本人用rstan编码。

模型拟合函数以前缀stan_开始，以模型类型完结。建模函数有两个必要的参数。

– 公式。一个指定因变量和自变量的公式（y ~ x1 + x2）。
– data。一个蕴含公式中变量的数据框。

此外，还有一个可选的先验参数，它容许你扭转默认的先验散布。

stan()函数读取和编译你的stan代码，并在你的数据集上拟合模型。

stan()函数有两个必要参数。
– 文件。蕴含你的Stan程序的.stan文件的门路。

– data。一个命名的列表，提供模型的数据。

例子

作为一个简略的例子来演示如何在这些包中指定一个模型，咱们将应用汽车数据来拟合一个线性回归模型。咱们的因变量是mpg，所有其余变量是自变量。

mtcars %>%
  head()

首先，咱们将拟合模型。对于线性回归，咱们应用stan函数。

summary(fit)

输入显示参数摘要，包含平均值、标准差和量值。此外，它还显示了MCMC的诊断统计Rhat和无效样本量。这些统计数据对于评估MCMC算法是否收敛十分重要。

接下来，咱们将用rstan来拟合同一个模型。上面是咱们模型的stan代码，保留在一个名为stan的文件中（你能够在RStudio中创立一个.stan文件，或者应用任何文本编辑器，并保留扩大名为.stan的文件）。

数据
  int<lower=0> N;   // 观测值的数量
  int<lower=0> K;   // 预测的数量
  matrix\[N, K\] X;   // 预测矩阵
...
参数
  real alpha;           // 截距
...
模型
  y ~ normal(alpha + X * beta, sigma);  // 指标密度

Stan代码在 “程序块 “中结构化。每个Stan模型都须要三个程序块，即数据、参数和模型。

数据块是用来申明作为数据读入的变量的。在咱们的例子中，咱们有后果向量（y）和预测矩阵（X）。当把矩阵或向量申明为一个变量时，你须要同时指定对象的维度。因而，咱们还将读出观测值的数量（N）和预测器的数量（K）。

在参数块中申明的变量是将被Stan采样的变量。在线性回归的状况下，感兴趣的参数是截距项（alpha）和预测因子的系数（beta）。此外，还有误差项，sigma。

模型区块是定义变量概率申明的中央。在这里，咱们指定指标变量具备正态分布，其平均值为α+X*β，标准差为sigma。在这个块中，你还能够指定参数的先验散布。默认状况下，参数被赋予平坦的（非信息性）先验。

此外，还有一些可选的程序块：函数、转换的数据、转换的参数和生成的数量。

接下来，咱们须要以Stan程序所冀望的形式来格式化咱们的数据。stan()函数要求将数据作为一个命名的列表传入，其中的元素是你在数据块中定义的变量。对于这个程序，咱们创立一个元素为N、K、X和Y的列表。

list(
    N = 32,
    K = 10,
    X = predictors,
    y = mpg
  )

当初咱们曾经筹备好了咱们的代码和数据，咱们把它们传给函数来拟合模型。

fit_rstan

输入相似的汇总统计数据，包含每个参数的平均值、标准偏差和量值。这些后果可能类似但不完全相同。它们之所以不同，是因为统计数据是依据后验的随机抽样来计算的。

评估收敛性

当应用MCMC拟合一个模型时，查看链是否收敛是很重要的。咱们举荐可视化来直观地查看MCMC的诊断后果。咱们将创立轨迹图，Rhat值图。

首先，让咱们创立轨迹图。轨迹图显示了MCMC迭代过程中参数的采样值。如果模型曾经收敛，那么轨迹图应该看起来像一个围绕平均值的随机散点。如果链在参数空间中笔直，或者链收敛到不同的值，那就证实有问题了。咱们来演示。

  mcmctrace()

这些轨迹图表明，两个模型都曾经收敛了。对于所有的参数，四条链都是混合的，没有显著的趋势。

接下来，咱们将查看Rhat值。Rhat是一种收敛诊断办法，它比拟了各条链的参数估计值。如果链曾经收敛并且混合良好，那么Rhat值应该靠近1。如果链没有收敛到雷同的值，那么Rhat值将大于1。Rhat值为1.05或更高，表明存在收敛问题。rhat()函数须要一个Rhat值的向量作为输出，所以咱们首先提取Rhat值。

 rhat()  +
  yaxis_text()

所有的Rhat值都低于1.05，阐明没有收敛问题。

Stan是一个建设贝叶斯模型的弱小工具，这些包使R用户能够很容易地应用Stan。

最受欢迎的见解

1.应用R语言进行METROPLIS-IN-GIBBS采样和MCMC运行

2.R语言中的Stan概率编程MCMC采样的贝叶斯模型

3.R语言实现MCMC中的Metropolis–Hastings算法与吉布斯采样

4.R语言BUGS JAGS贝叶斯剖析马尔科夫链蒙特卡洛办法（MCMC）采样

5.R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

6.R语言Gibbs抽样的贝叶斯简略线性回归仿真剖析

7.R语言用Rcpp减速Metropolis-Hastings抽样预计贝叶斯逻辑回归模型的参数

8.R语言应用Metropolis- Hasting抽样算法进行逻辑回归

9.R语言中基于混合数据抽样(MIDAS)回归的HAR-RV模型预测GDP增长

关于算法:R语言贝叶斯MCMC用rstan建立线性回归模型分析汽车数据和可视化诊断

原文链接 http://tecdat.cn/?p=23255

Stan

`rstan`

例子

评估收敛性

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于算法:R语言贝叶斯MCMC用rstan建立线性回归模型分析汽车数据和可视化诊断

原文链接 http://tecdat.cn/?p=23255

Stan

rstan

例子

评估收敛性

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

`rstan`

发表回复取消回复