原文出处:拓端数据部落公众号
概述:
家喻户晓,心脏疾病是目前寰球最次要的死因。开发一个可能预测患者心脏疾病存在的计算零碎将显著升高死亡率并大幅升高医疗保健老本。机器学习在寰球许多畛域中被广泛应用,尤其在医疗行业中越来越受欢迎。机器学习能够在预测要害疾病(例如心脏病)的存在或不存在方面施展重要作用。
如果能提前精确预测这些信息,能够为医生提供重要见解,从而可能相应并无效地进行患者医治。以下演示了对风行的心脏疾病数据库进行的探索性数据分析。除此之外,还应用不同办法(如逻辑回归、随机森林和神经网络)进行心脏病预测。
数据集:数据集蕴含76个属性,但倡议咱们只应用其中的14个进行剖析。在本文中,应用一个合并的数据集构建分类器,并应用穿插验证技术进行性能评估。
特色:
- Age:年龄(以年为单位)。
- Gender:性别,1示意男性,0示意女性。
- Cp:胸痛类型,取值1:典型心绞痛,取值2:非典型心绞痛,取值3:非心绞痛疼痛,取值4:无症状。
- Trestbps:静息血压(以毫米汞柱为单位)。
- Chol:血清胆固醇(以毫克/分升为单位)。
- Fbs:空腹血糖" > 120 mg/dl,1示意真,0示意假。
- Target:两个类别,因而是一个二分类问题。
指标:预测一个人是否患有心脏疾病。
读取数据集并查看是否有缺失值
head(heartDiseaseData)
sum(is.na(heartDiseaseData))
##" [1] 0
具备最高斜率2的人患心脏病的可能性更高
能够察看到仅有多数参数,如胸痛类型、性别、静止诱发心绞痛、血管数量和ST段压低,对后果有显著影响。因而,能够舍弃其余参数。