关于算法:Python用决策树分类预测糖尿病和可视化实例

61次阅读

共计 2287 个字符,预计需要花费 6 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=23848

决策树是对例子进行分类的一种简略示意。它是一种有监督的机器学习技术,数据依据某个参数被间断宰割。决策树剖析能够帮忙解决分类和回归问题。

决策树算法将数据集分解成更小的子集;同时,相干的决策树也在逐渐倒退。决策树由节点(测试某个属性的值)、边 / 分支(对应于测试的后果并连贯到下一个节点或叶子)和叶子节点(预测后果的终端节点)组成,使其成为一个残缺的构造。

在这篇文章中,咱们将学习 Python 中决策树的实现,应用 scikit learn 包。

对于咱们的剖析,咱们抉择了一个十分相干和独特的数据集,该数据集实用于医学迷信畛域,它将有助于预测病人是否患有糖尿病,基于数据集中采集的变量。这些信息来自国家糖尿病、消化道和肾脏疾病研究所,包含预测变量,如病人的 BMI、怀孕状况、胰岛素程度、年龄等。让咱们间接用决策树算法来解决这个问题,进行分类。

用 Python 实现决策树

对于任何数据分析问题,咱们首先要清理数据集,删除数据中的所有空值和缺失值。在这种状况下,咱们不是在处理错误的数据,这使咱们省去了这一步。

1. 为咱们的决策树剖析导入所需的库并拉入所需的数据

# 加载库
from sklearn.model\_selection import train\_test\_split #导入 train\_test_split 函数
from sklearn import metrics #导入 scikit-learn 模块以计算准确率

# 载入数据集
data = pd.read\_csv("diabetes.csv", header=None, names=col\_names)

让咱们看看这个数据集的前几行是什么样子的

pima.head()

2. 在加载数据后,咱们理解构造和变量,确定指标变量和特色变量(别离为因变量和自变量)。

# 在特色和指标变量中拆分数据集
X = pima\[feature\] # 特色
y = pima.label # 指标变量

3. 咱们把数据按 70:30 的比例分成训练集和测试集。

# 将数据集分成训练集和测试集
train\_test\_split(X, y, test\_size=0.3, random\_state=1) # 70% 的训练和 30% 的测试

作为规范做法,你能够依据须要遵循 70:30 至 80:20。

4. 应用 scikit learn 进行决策树剖析

# 创立决策树分类器对象
clf = DecisionTreeClassifier()

5. 预计分类器预测后果的精确水平。准确度是通过比拟理论测试集值和预测值来计算的。

# 模型准确率,分类器正确的概率是多少?print("准确率:",metrics.accuracy\_score(y\_test, y_pred))

咱们的决策树算法有 67.53% 的准确性。这么高的数值通常被认为是好的模型。

6. 当初咱们曾经创立了一棵决策树,看看它在可视化的时候是什么样子的

决策树的可视化。

Image(graph.create_png())

Python 输入

你会留神到,在这个决策树图中,每个外部节点都有一个宰割数据的决策规定。

掂量通过决策树剖析创立的节点的不纯度

Gini 指的是 Gini 比,掂量决策树中节点的不纯度。人们能够认为,当一个节点的所有记录都属于同一类别时,该节点是纯的。这样的节点被称为叶子节点。

在咱们下面的后果中,因为后果的复杂性,残缺的决策树很难解释。修剪一棵树对于后果的了解和优化它是至关重要的。这种优化能够通过以下三种形式之一进行。

  • 规范:默认 =”gini”
  • splitter:字符串,可选(默认 =”best”)或 宰割 策略。抉择宰割策略。能够抉择 “best“ 来抉择最佳宰割,或者抉择 “random” 来抉择最佳随机宰割。
  • max_depth: int 或 None,可选(默认 =None)或树的最大深度
    这个参数决定了树的最大深度。这个变量的数值越高,就会导致适度拟合,数值越低,就会导致拟合有余。

在咱们的案例中,咱们将扭转树的最大深度作为预修剪的控制变量。让咱们试试 max_depth=3。

# 创立决策树分类器对象
DecisionTree(max_depth=3)

在 Pre-pruning 上,决策树算法的准确率进步到 77.05%,显著优于之前的模型。

决策树在 Python 中的实现

Image(graph.create_png())

后果:

Python 输入

这个修剪过的模型的后果看起来很容易解释。有了这个,咱们就可能对数据进行分类,并预测一个人是否患有糖尿病。然而,决策树并不是你能够用来提取这些信息的惟一技术,你还能够摸索其余各种办法。

如果你想学习和实现这些算法,那么你应该摸索通过辅助办法学习,并失去专业人士的 1 对 1 领导。拓端数据迷信职业轨道打算保障了 1:1 的领导,我的项目驱动的办法,职业辅导,提供实习工作我的项目保障,来帮忙你将职业生涯转变为数据驱动和决策的角色。请分割咱们以理解更多信息!
 


最受欢迎的见解

1. 从决策树模型看员工为什么到职

2.R 语言基于树的办法:决策树,随机森林

3.python 中应用 scikit-learn 和 pandas 决策树

4.机器学习:在 SAS 中运行随机森林数据分析报告

5.R 语言用随机森林和文本开掘进步航空公司客户满意度

6. 机器学习助推快时尚精准销售工夫序列

7. 用机器学习辨认一直变动的股市情况——隐马尔可夫模型的利用

8.python 机器学习:举荐零碎实现(以矩阵合成来协同过滤)

9.python 中用 pytorch 机器学习分类预测银行客户散失

正文完
 0