关于机器学习:机器学习决策树

前言

决策树是一种罕用的机器学习算法，用于分类和回归问题。其次要思维是依据已知数据构建一棵树，通过看待分类或回归的样本进行逐渐的特色判断，最终将其分类或回归至叶子节点

要害概念

节点：决策树由许多节点组成，其中分为两种类型：外部节点和叶子节点。外部节点示意某个特色，而叶子节点示意某个类别或回归值。
分支：每个外部节点连贯着一些分支，每个分支代表着某个特色取值，示意样本在该特色上的取值。
根节点：决策树的根节点是整棵树的终点，即第一个判断特色的节点。
决策规定：决策树的每个节点示意一条决策规定，即对某个特色的判断，其决策规定是由已知数据集计算而得的。
剪枝：决策树为了防止适度拟合（Overfitting），通常会在构建好树之后进行剪枝操作，即去掉一些决策规定，以防止模型过于简单。

实现流程

数据预处理：将原始数据转换成决策树可解决的数据格式。对于分类问题，须要将类别变量编码为数字；对于连续变量，须要进行离散化解决。
特征选择：从所有可用的特色中抉择一个最佳的特色，用于划分数据集。罕用的特征选择算法有信息增益、信息增益比和基尼指数等。
决策树的构建：将数据集递归地划分成越来越小的子集，直到数据集不能再被划分，或者达到预约的进行条件。在每个节点上抉择最佳的特色，将数据集划分成两个子集，并在子集上递归地执行此过程，直到子集不能再被划分。
剪枝：为了防止过拟合，能够在构建完整棵树之后，对决策树进行剪枝。剪枝分为预剪枝和后剪枝两种办法。预剪枝是在决策树构建过程中，通过限度树的深度、节点数或其余条件，防止过拟合。后剪枝是在决策树构建实现之后，通过对子树进行剪枝，来缩小决策树的复杂度。
决策树的评估：通过测试集或穿插验证等办法，对决策树的性能进行评估。评估指标包含准确率、准确率、召回率、F1分数等。
预测：将待预测的样本顺次从根节点开始进行判断，依照决策规定向下挪动，直到达到某个叶子节点，将样本归类于该叶子节点所代表的类别。

决策树优缺点

长处：

可解释性强：决策树模型的生成过程相似人类决策的过程，易于了解和解释，可帮忙决策者理解数据特色、属性间的关系和决策规定，有助于对数据的深入分析和开掘。
适用性广：决策树算法不须要对数据做过多的前置解决，如特色缩放、归一化等，能够间接解决离散或连续型的数据，且不受数据分布的影响，实用于各种类型的数据和问题。
可解决缺失值和异样值：决策树算法能够解决缺失值和异样值，因为在决裂节点时只需思考以后样本的特征值，而不须要思考其余样本的特征值。
速度快：决策树的训练和预测速度都很快，因为它的断定过程非常简单，只需对每个特色进行一次比拟，所以工夫复杂度为 O(n)，其中 n 示意样本数量。

毛病：

容易过拟合：决策树的划分过程是基于训练数据的，因而容易呈现过拟合景象，导致模型泛化能力差。能够通过剪枝、限度树的深度、减少样本数等办法来解决过拟合问题。
不稳定性高：因为数据的渺小变动可能导致树结构的大幅变动，所以决策树的稳定性较差，须要采纳集成学习等办法来进步稳定性。
对间断值解决不好：决策树算法对连续型变量的解决不如对离散型变量的解决好，须要对连续型变量进行离散化解决。
高度依赖数据品质：决策树算法须要有足够的样本数据和较好的数据品质，否则容易呈现欠拟合和过拟合等问题，影响模型的性能。

典型的决策树算法

ID3算法：ID3（Iterative Dichotomiser 3）算法是决策树算法中最早的一种，应用信息增益来抉择最优特色。ID3算法基于贪婪思维，始终抉择以后最优的特色进行宰割，直到数据集宰割实现或没有特色可宰割为止。
C4.5算法：C4.5算法是ID3算法的改进版，应用信息增益比来抉择最优特色。C4.5算法对ID3算法中存在的问题进行了优化，包含解决缺失值、解决间断值等。
CART算法：CART（Classification and Regression Trees）算法是一种基于基尼不纯度的二叉树构造分类算法，用于解决二分类和回归问题。CART算法能够解决间断值和离散值的特色，可能生成二叉树构造，具备较好的可解释性。
CHAID算法：CHAID（Chi-square Automatic Interaction Detection）算法是一种基于卡方测验的决策树算法，用于解决分类问题。CHAID算法可能解决多分类问题，不须要事后对特色进行解决。
MARS算法：MARS（Multivariate Adaptive Regression Splines）算法是一种基于样条插值的决策树算法，用于回归问题。MARS算法可能解决间断值和离散值的特色，可能生成非二叉树构造，具备较好的拟合能力。

代码

基于Python的简略决策树实现，以Iris数据集为例：

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 构建决策树
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估性能
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: ", accuracy)

关于机器学习:机器学习决策树

前言

要害概念

实现流程

决策树优缺点

长处：

毛病：

典型的决策树算法

代码

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于机器学习:机器学习决策树

前言

要害概念

实现流程

决策树优缺点

长处：

毛病：

典型的决策树算法

代码

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复