共计 1422 个字符,预计需要花费 4 分钟才能阅读完成。
全文链接:http://tecdat.cn/?p=31070
原文出处:拓端数据部落公众号
最近,在贝叶斯统计试验中,咱们向客户演示了用 R 的奢侈贝叶斯分类器能够提供的内容。
这个实用的例子介绍了应用 R 统计环境的奢侈贝叶斯模型。
它不假如先验常识。
咱们的步骤是:
1. 启动 R
2. 摸索 Iris 鸢尾花数据集
3. 结构奢侈贝叶斯分类器
4. 了解奢侈贝叶斯
摸索 Iris 数据集
在这个实际中,咱们将摸索经典的“Iris”数据集。
Iris 数据集有 150 个数据点和 5 个变量。每一个数据点蕴含一个特定的花,并给出 4 种花的测量值。
工作是用花的特色与物种一起构建一个分类器,从 4 种对花的观测量中预测花的种类。
要将 Iris 数据集放到您的 R 会话中,请执行以下操作:
data(iris)
查看数据
pairs(iris[1:4],main="
命令创立了一个散点图。类决定数据点的色彩。从中能够看出,setosa 花的花瓣比其余两种都要小。
提供数据摘要
summary(iris)
结构奢侈贝叶斯分类器
咱们构建一个奢侈的贝叶斯分类器。
(1)加载到您的工作区
(2)构建奢侈的 Bayes 分类器,
(3)对数据进行一些预测,请执行以下操作:
library(e1071)
classifier<-naiveBayes(iris[,1:4], iris[,5])
table(predict(classifier, iris[,-5]), iris[,5], dnn=list('predicted','actual'))
正如你应该看到的那样,分类器在分类方面做得很好。为什么这并不奇怪?
这给出了数据中的类散布:类的先验散布。(“先验”是拉丁语,示意“从前开始”)。
因为这里的预测变量都是间断的,奢侈贝叶斯分类器为每个预测变量生成三个 Giaussian(正态分布)散布:一个用于类变量的每个值。
您将看到 3 个依赖于类的高斯分布的均匀 (第一列) 和标准偏差(第二列):
绘制成图:
plot(function(x) dnorm, 0, 8, col=2, main="3 种不同物种的花瓣长度散布")
curve(
值得注意的是,setosa irises(蓝色曲线)花瓣较小(平均值 =1.462),花瓣长度变动较小(唐氏偏差仅为 0.1736640)。
了解奢侈贝叶斯
在这个问题中,您必须计算出对于一些离散数据,奢侈贝叶斯模型的参数应该是什么。
该数据集被称为 HairEyeColor,有三个变量:性别、眼睛和头发,给出了某大学 592 名学生的这 3 个变量的值。首先看一下数字:
您还能够将其绘制为“马赛克”图,它应用矩形来示意数据中的数字:
你在这里的工作是为一个奢侈的贝叶斯分类器计算参数,它试图从另外两个变量中预测性别。参数应该应用最大的可能性来预计。为了节俭手工计算的繁琐工夫,上面是如何应用 Edge.table 来获取所需的计数
naiveBayes(Sex ~
预测
最受欢迎的见解
1.matlab 应用贝叶斯优化的深度学习
2.matlab 贝叶斯隐马尔可夫 hmm 模型实现
3.R 语言 Gibbs 抽样的贝叶斯简略线性回归仿真
4.R 语言中的 block Gibbs 吉布斯采样贝叶斯多元线性回归
5.R 语言中的 Stan 概率编程 MCMC 采样的贝叶斯模型
6. R 语言贝叶斯 Poisson 泊松 - 正态分布模型剖析职业足球比赛进球数
7.R 语言应用贝叶斯 层次模型进行空间数据分析
8.R 语言随机搜寻变量抉择 SSVS 预计贝叶斯向量自回归(BVAR)模型
9.matlab 贝叶斯隐马尔可夫 hmm 模型实现