关于数据挖掘:数据分享R语言逻辑回归Naive-Bayes贝叶斯决策树随机森林算法预测心脏病附代码数据

最近咱们被客户要求撰写对于预测心脏病的钻研报告，包含一些图形和统计输入。

这个数据集能够追溯到 1988 年，由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。” 指标 “ 字段是指病人是否有心脏病。它的数值为整数，0= 无病，1= 有病

次要目标是预测给定的人是否有心脏病，借助于几个因素，如年龄、胆固醇程度、胸痛类型等。

咱们在这个问题上应用的算法是：

二元逻辑回归
Naive Bayes 算法
决策树
随机森林

该数据有 303 个察看值和 14 个变量。每个察看值都蕴含对于集体的以下信息。

年龄:- 集体的年龄，以年为单位
sex:- 性别（1= 男性；0= 女性）
cp – 胸痛类型（1= 典型心绞痛；2= 非典型心绞痛；3= 非心绞痛；4= 无症状）。
trestbps– 静息血压
chol – 血清胆固醇，单位：mg/dl
fbs – 空腹血糖程度 >120 mg/dl（1= 真；0= 假)
restecg – 静息心电图后果（0= 失常；1= 有 ST-T；2= 瘦小)
thalach – 达到的最大心率
exang – 静止诱发的心绞痛（1= 是；0= 否)
oldpeak – 绝对于静止状态，静止诱发的 ST 压低
slope – 静止时 ST 段峰值的斜率（1= 上斜；2= 平坦；3= 下斜)
ca – 次要血管的数量（0-4），由 Flourosopy 着色
地中海贫血症 – 地中海贫血症是一种遗传性血液疾病，会影响身材产生血红蛋白和红细胞的能力。1= 失常；2= 固定缺点；3= 可逆转缺点
指标 – 预测属性 – 心脏疾病的诊断（血管造影疾病状态）（值 0 =<50% 直径狭隘；值 1 =>50% 直径狭隘)

在 Rstudio 中加载数据

heart<-read.csv("heart.csv",header = T)

header = T 意味着给定的数据有本人的题目，或者换句话说，第一个观测值也被思考用于预测。

head(heart)

当咱们想查看和检查数据的前六个观察点时，咱们应用 head 函数。

tail(heart)

显示的是咱们数据中最初面的六个观察点

colSums(is.na(heart))

这个函数是用来查看咱们的数据是否蕴含任何 NA 值。
如果没有发现 NA，咱们就能够继续前进，否则咱们就必须在之前删除 NA。

str(heart)

查看咱们的数据摘要

summary(heart)

通过观察以上的总结，咱们能够说以下几点

性别不是连续变量，因为依据咱们的形容，它能够是男性或女性。因而，咱们必须将性别这个变量名称从整数转换为因子。
cp 不能成为连续变量，因为它是胸痛的类型。因为它是胸痛的类型，咱们必须将变量 cp 转换为因子。
fbs 不能是连续变量或整数，因为它显示血糖程度是否低于 120mg/dl。
restecg 是因子，因为它是心电图后果的类型。它不能是整数。所以，咱们要把它转换为因子和标签。
依据数据集的形容，exang 应该是因子。心绞痛产生或不产生。因而，将该变量转换为因子。
斜率不能是整数，因为它是在心电图中察看到的斜率类型。因而，咱们将变量转换为因子。
依据数据集的形容，ca 不是整数。因而，咱们要将该变量转换为因子。
thal 不是整数，因为它是地中海贫血的类型。因而，咱们将变量转换为因子。
指标是预测变量，通知咱们这个人是否有心脏病。因而，咱们将该变量转换为因子，并为其贴上标签。

根据上述思考，咱们对变量做了一些变动

# 例如
sex<-as.factor(sex)
levels(sex)<-c("Female","Male")

查看上述变动是否执行胜利

str(heart)

summary(heart)

EDA 是探索性数据分析（Exploratory Data Analysis）的缩写，它是一种数据分析的办法 / 哲学，采纳各种技术（次要是图形技术）来深刻理解数据集。

对于图形示意，咱们须要库 “ggplot2”

library(ggplot2)
ggplot(heart,aes(x=age,fill=target,color=target)) + geom_histogram(binwidth = 1,color="black") + labs(x = "Age",y = "Frequency", title = "Heart Disease w.r.t. Age")

咱们能够得出结论，与 60 岁以上的人相比，40 至 60 岁的人患心脏病的概率最高。

table <- table(cp)

pie(table)

咱们能够得出结论，在所有类型的胸痛中，在集体身上察看到的大多数是典型的胸痛类型，而后是非心绞痛。

点击题目查阅往期内容

R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

左右滑动查看更多

首先，咱们将数据集分为训练数据（75%）和测试数据（25%）。

set.seed(100) 
#100 用于管制抽样的 permutation 为 100. 
index<-sample(nrow(heart),0.75*nrow(heart))

在训练数据上生成模型，而后用测试数据验证模型。

glm(family = "binomial")
# family = "二项式" 意味着只蕴含两个后果。

为了查看咱们的模型是如何生成的，咱们须要计算预测分数和建设混同矩阵来理解模型的准确性。

pred<-fitted(blr)
# 拟合只能用于取得生成模型的数据的预测分数。

咱们能够看到，预测的分数是患心脏病的概率。但咱们必须找到一个适当的分界点，从这个分界点能够很容易地区分是否患有心脏病。

为此，咱们须要 ROC 曲线，这是一个显示分类模型在所有分类阈值下的性能的图形。它将使咱们可能采取适当的临界值。

pred<-prediction(train$pred,train$target)
perf<-performance(pred,"tpr","fpr")
plot(perf,colorize = T,print.cutoffs.at = seq(0.1,by = 0.1))

通过应用 ROC 曲线，咱们能够察看到 0.6 具备更好的敏感性和特异性，因而咱们抉择 0.6 作为辨别的分界点。

pred1<-ifelse(pred<0.6,"No","Yes")

# 训练数据的准确性
acc_tr

从训练数据的混同矩阵中，咱们晓得模型有 88.55% 的准确性。

当初在测试数据上验证该模型

predict(type = "response")
## type = "response" 是用来取得患有心脏病的概率的后果。head(test)

咱们晓得，对于训练数据来说，临界点是 0.6。同样地，测试数据也会有雷同的临界点。

confusionMatrix((pred1),target)

# 测试数据的准确性.

查看咱们的预测值有多少位于曲线内

auc@y.values

咱们能够得出结论，咱们的准确率为 81.58%，90.26% 的预测值位于曲线之下。同时，咱们的谬误分类率为 18.42%。

在执行 Naive Bayes 算法之前，须要删除咱们在执行 BLR 时增加的额定预测列。

#naivebayes 模型
nB(target~.)

用训练数据查看模型，并创立其混同矩阵，来理解模型的精确水平。

predict(train)
confMat(pred,target)

咱们能够说，贝叶斯算法对训练数据的准确率为 85.46%。

当初，通过预测和创立混同矩阵来验证测试数据的模型。

Matrix(pred,target)

咱们能够得出结论，在 Naive Bayes 算法的帮忙下生成的模型准确率为 78.95%，或者咱们也能够说 Naive Bayes 算法的谬误分类率为 21.05%。

在施行决策树之前，咱们须要删除咱们在执行 Naive Bayes 算法时增加的额定列。

train$pred<-NULL

rpart 代表递归分区和回归树

当自变量和因变量都是间断的或分类的时候，就会用到 rpart。

rpart 会自动检测是否要依据因变量进行回归或分类。

plot(tree)

在决策树的帮忙下，咱们能够说所有变量中最重要的是 CP、CA、THAL、Oldpeak。

让咱们用测试数据来验证这个模型，并找出模型的准确性。

conMat(pred,targ)

咱们能够说，决策树的准确率为 76.32%，或者说它的谬误分类率为 23.68%。

在执行随机森林之前，咱们须要删除咱们在执行决策树时增加的额定预测列。

test$pred<-NULL

在随机森林中，咱们不须要将数据分成训练数据和测试数据，咱们间接在整个数据上生成模型。为了生成模型，咱们须要应用随机森林库

# Set.seed 通过限度 permutation 来管制随机性。set.seed(100)
model_rf<-randomForest(target~.,data = heart)
model_rf

在图上绘制出随机森林与误差的关系。

plot(model_rf)

红线代表没有心脏病的 MCR，绿线代表有心脏病的 MCR，黑线代表总体 MCR 或 OOB 误差。总体误差率是咱们感兴趣的，后果不错。

在进行了各种分类技术并思考到它们的准确性后，咱们能够得出结论，所有模型的准确性都在 76% 到 84% 之间。其中，随机森林的准确率略高，为 83.5%。

数据获取

在上面公众号后盾回复“心脏病数 据”，可收费获取残缺数据。

本文摘选《 R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病 》，点击“ 浏览原文”获取全文残缺材料。

点击题目查阅往期内容

R 语言逻辑回归 logistic 模型剖析泰坦尼克 titanic 数据集预测生还状况 R 语言是否对二分连续变量执行逻辑回归
R 语言用 lme4 多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据
R 语言随机森林 RandomForest、逻辑回归 Logisitc 预测心脏病数据和可视化剖析
R 语言基于 Bagging 分类的逻辑回归 (Logistic Regression)、决策树、森林剖析心脏病患者
R 语言逻辑回归（Logistic 回归）模型分类预测病人冠心病危险
R 语言用部分加权回归(Lowess) 对 logistic 逻辑回归诊断和残差剖析 R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化
R 语言用线性模型进行臭氧预测：加权泊松回归，一般最小二乘，加权负二项式模型，多重插补缺失值 R 语言 Bootstrap 的岭回归和自适应 LASSO 回归可视化
R 语言中回归和分类模型抉择的性能指标
R 语言多元工夫序列滚动预测：ARIMA、回归、ARIMAX 模型剖析
R 语言用 lme4 多层次（混合效应）狭义线性模型（GLM），逻辑回归剖析教育留级考察数据
R 语言计量经济学：虚构变量 (哑变量) 在线性回归模型中的利用
R 语言线性混合效应模型实战案例
R 语言混合效应逻辑回归（mixed effects logistic）模型剖析肺癌数据
R 语言如何用潜类别混合效应模型（LCMM）剖析抑郁症状
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言建设和可视化混合效应模型 mixed effect model
R 语言 LME4 混合效应模型钻研老师的受欢迎水平
R 语言线性混合效应模型实战案例
R 语言用 Rshiny 摸索 lme4 狭义线性混合模型（GLMM）和线性混合模型（LMM）
R 语言基于 copula 的贝叶斯分层混合模型的诊断准确性钻研
R 语言如何解决线性混合模型中畸形拟合 (Singular fit) 的问题
基于 R 语言的 lmer 混合线性回归模型
R 语言用 WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
R 语言分层线性模型案例
R 语言用 WinBUGS 软件对学术能力测验（SAT）建设分层模型
应用 SAS，Stata，HLM，R，SPSS 和 Mplus 的分层线性模型 HLM
R 语言用 WinBUGS 软件对学术能力测验建设档次（分层）贝叶斯模型
SPSS 中的多层（等级）线性模型 Multilevel linear models 钻研整容手术数据
用 SPSS 预计 HLM 多层（档次）线性模型模型

关于数据挖掘:数据分享R语言逻辑回归Naive-Bayes贝叶斯决策树随机森林算法预测心脏病附代码数据

全文链接：http://tecdat.cn/?p=23061

数据集信息：

指标:

数据集的形容:

查看咱们的数据结构

EDA

执行机器学习算法

Logistic 回归

Naive Bayes 算法

决策树

施行决策树

随机森林

论断