关于机器学习:机器学习SVM

前言

SVM（反对向量机）是一种罕用的机器学习算法，用于分类和回归剖析。它的次要目标是寻找一个最优超平面，将不同属性的数据分成不同的类别。SVM是一种无效的分类器，因为它能够解决高维数据，并且能够应用核函数解决非线性可分的数据。

SVM思维

它的核心思想是通过将数据映射到高维空间来找到一个最优的超平面。
SVM通过找到反对向量来定义最优超平面。反对向量是最靠近超平面的数据点，它们对于定义超平面的地位和方向起着重要的作用。因而，SVM寻找最优超平面的过程能够简化为找到可能最大化反对向量到最优超平面的间隔的超平面。

SVM流程

数据预处理

在应用SVM之前，须要对数据进行预处理，包含数据荡涤、特征选择和特征提取等。此外，还须要将数据分为训练集和测试集。
特色映射

SVM的核心思想是通过将数据映射到高维空间来找到一个最优的超平面。因而，在这一步中，须要将数据通过核函数进行映射，将原始数据映射到高维空间。
寻找最优超平面

在映射到高维空间后，SVM须要寻找一个最优的超平面，将数据分成不同的类别。为了找到最优超平面，须要确定一些参数，如C（惩办系数）和γ（核函数的参数），以最大化分类器的准确性。
分类

在训练好分类器后，须要应用测试数据集对分类器进行测试，并计算分类器的准确率和召回率等指标。

SVM优缺点

长处
- 高维数据处理能力：SVM能够很好地解决高维数据，并且能够应用核函数解决非线性可分的数据，因而实用于解决许多理论问题。
- 鲁棒性：SVM对于噪声数据有很好的解决能力，因为它只关注最靠近超平面的数据点。
- 实用于小样本：SVM只须要找到反对向量而不是所有的数据点，因而实用于解决小样本问题。
- 可调参数：SVM具备许多可调参数，如C（惩办系数）和γ（核函数的参数），以最大化分类器的准确性。
毛病
- 计算复杂度高：在解决大规模数据时，SVM的计算复杂度较高，因而训练工夫较长。
- 须要抉择适当的核函数：抉择适当的核函数对于SVM的性能十分重要，但这往往须要进行肯定的试验和调整。
- 对缺失数据敏感：SVM对于缺失数据比拟敏感，因而须要在预处理数据时进行解决。
总结
- SVM在解决高维数据和非线性数据时表现出色，并且对于噪声数据和小样本问题也有很好的成果。然而，SVM的计算复杂度较高，并且须要抉择适当的核函数，因而在理论利用中须要认真思考其优缺点，以抉择适合的机器学习算法。

底层代码实现

import numpy as np

class SVM:
    def __init__(self, learning_rate=0.01, lambda_param=0.01, n_iters=1000):
        self.lr = learning_rate       # 学习率
        self.lambda_param = lambda_param    # 正则化参数
        self.n_iters = n_iters         # 迭代次数
        self.w = None       # 参数w
        self.b = None       # 参数b

    def fit(self, X, y):
        n_samples, n_features = X.shape

        # 将标签y转换为{-1, 1}，便于后续计算
        y_ = np.where(y <= 0, -1, 1)

        self.w = np.zeros(n_features)   # 初始化参数w为全零向量
        self.b = 0                      # 初始化参数b为0

        # 应用梯度降落法求解最优参数w和b
        for _ in range(self.n_iters):
            for idx, x_i in enumerate(X):
                condition = y_[idx] * (np.dot(x_i, self.w) - self.b) >= 1   # 判断样本点是否位于Margin之内
                if condition:
                    self.w -= self.lr * (2 * self.lambda_param * self.w)   # 如果在Margin之内，更新参数w
                else:
                    self.w -= self.lr * (2 * self.lambda_param * self.w - np.dot(x_i, y_[idx]))   # 如果在Margin之外，更新参数w和b
                    self.b -= self.lr * y_[idx]     # 更新参数b

    def predict(self, X):
        approx = np.dot(X, self.w) - self.b   # 计算样本点到超平面的间隔
        return np.sign(approx)    # 返回样本点的类别，即其符号

在__init__函数中，定义了学习率、正则化参数和迭代次数等超参数。

在fit函数中，应用梯度降落法求解最优参数w和b，其中当样本点位于Margin之外时，更新参数w和b。

在predict函数中，计算样本点与超平面的间隔，并返回其符号作为预测后果。

关于机器学习:机器学习SVM

前言

SVM思维

SVM流程

SVM优缺点

底层代码实现

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于机器学习:机器学习SVM

前言

SVM思维

SVM流程

SVM优缺点

底层代码实现

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复