关于数据挖掘:R语言朴素贝叶斯Naive-Bayes分类Iris鸢尾花和HairEyeColor学生性别和眼睛头发颜色数据

全文链接：http://tecdat.cn/?p=31070

最近，在贝叶斯统计试验中，咱们向客户演示了用R的奢侈贝叶斯分类器能够提供的内容。

这个实用的例子介绍了应用R统计环境的奢侈贝叶斯模型。
它不假如先验常识。

1.启动R

2.摸索Iris鸢尾花数据集

3.结构奢侈贝叶斯分类器

4.了解奢侈贝叶斯

在这个实际中，咱们将摸索经典的“Iris”数据集。

Iris数据集有150个数据点和5个变量。每一个数据点蕴含一个特定的花，并给出4种花的测量值。

工作是用花的特色与物种一起构建一个分类器，从4种对花的观测量中预测花的种类。

要将Iris数据集放到您的R会话中，请执行以下操作：

data(iris)

pairs(iris[1:4],main="

命令创立了一个散点图。类决定数据点的色彩。从中能够看出，setosa花的花瓣比其余两种都要小。

提供数据摘要

summary(iris)

咱们构建一个奢侈的贝叶斯分类器。

(1)加载到您的工作区

(2)构建奢侈的Bayes分类器，

(3)对数据进行一些预测，请执行以下操作：

library(e1071)  classifier<-naiveBayes(iris[,1:4], iris[,5])  table(predict(classifier, iris[,-5]), iris[,5], dnn=list('predicted','actual'))

正如你应该看到的那样，分类器在分类方面做得很好。为什么这并不奇怪？

这给出了数据中的类散布：类的先验散布。(“先验”是拉丁语，示意“从前开始”)。

因为这里的预测变量都是间断的，奢侈贝叶斯分类器为每个预测变量生成三个Giaussian(正态分布)散布：一个用于类变量的每个值。

您将看到3个依赖于类的高斯分布的均匀(第一列)和标准偏差(第二列)：

plot(function(x) dnorm, 0, 8, col=2, main="3种不同物种的花瓣长度散布")curve(

值得注意的是，setosa irises(蓝色曲线)花瓣较小(平均值=1.462)，花瓣长度变动较小(唐氏偏差仅为0.1736640)。

在这个问题中，您必须计算出对于一些离散数据，奢侈贝叶斯模型的参数应该是什么。

该数据集被称为HairEyeColor，有三个变量：性别、眼睛和头发，给出了某大学592名学生的这3个变量的值。首先看一下数字：

您还能够将其绘制为“马赛克”图，它应用矩形来示意数据中的数字：

你在这里的工作是为一个奢侈的贝叶斯分类器计算参数，它试图从另外两个变量中预测性别。参数应该应用最大的可能性来预计。为了节俭手工计算的繁琐工夫，上面是如何应用Edge.table来获取所需的计数

naiveBayes(Sex ~

最受欢迎的见解

1.matlab应用贝叶斯优化的深度学习

2.matlab贝叶斯隐马尔可夫hmm模型实现

3.R语言Gibbs抽样的贝叶斯简略线性回归仿真

4.R语言中的block Gibbs吉布斯采样贝叶斯多元线性回归

5.R语言中的Stan概率编程MCMC采样的贝叶斯模型

6.R语言贝叶斯Poisson泊松-正态分布模型剖析职业足球比赛进球数

7.R语言应用贝叶斯层次模型进行空间数据分析

8.R语言随机搜寻变量抉择SSVS预计贝叶斯向量自回归（BVAR）模型

9.matlab贝叶斯隐马尔可夫hmm模型实现