关于机器学习:前端也要懂机器学习下

39次阅读

共计 7474 个字符,预计需要花费 19 分钟才能阅读完成。

关注公众号“执鸢者”,回复“材料”获取 500G 材料(各“兵种”均有),还有业余交换群等你一起来洒脱。(哈哈)

上一篇文章讲述了机器学习的根本知识点,这一篇就开启一些算法的摸索之路。既然咱们是前端研发工程师,那就抉择 ml.js 这个库进行编码。本次波及到的算法蕴含:KNN、决策树、随机森林、奢侈贝叶斯、反对向量机、线性回归、K- 均值聚类算法,这七个算法横跨监督学习算法(分类算法、回归算法)、非监督学习算法,能够作为前端入门机器学习的必修课程,也可作为既将到来的端智能时代的必读刊物。

一、监督学习算法

1.1 分类算法

1.1.1 K- 近邻分类算法(KNN)

一、定义

如果一个样本在特色空间中的 k 个最类似(即特色空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。(通常 k 是不大于 20 的整数)

二、优缺点

  1. 长处

    • 简略无效
    • 精度高
    • 对异样值不敏感
    • 毋庸训练
  2. 毛病

    • 计算复杂度高、空间复杂度高(计算量大,内存开销大)
    • 必须指定 K 值,K 值抉择不当则分类精度不能保障。(K 值取很小,容易受到异样点的影响,容易呈现过拟合;K 值取很大,受到样本平衡问题)

三、计算间隔

对于 KNN 算法,最外围的内容是计算间隔,两个样本之间的间隔能够通过欧氏间隔计算。其计算公式为:

四、利用场景

小数据场景(几千~ 几万样本),可用于字符识别、文本分类、图像识别等畛域

五、代码

const KNN = require('ml-knn');

// 训练集特色
const dataset = [[1.0, 1.1],
    [1.0, 1.0],
    [0, 0],
    [0, 0.1]
];

// 训练集指标
const labels = ['A', 'A', 'B', 'B'];

// 实例化 KNN 算法 (进行训练)
const knn = new KNN(dataset, labels, { k: 3});

// 须要进行预测的点
const predictDataSet = [[0, 0], [3, 1]];

// 进行预测
predictLabels = knn.predict(predictDataSet);
console.log(predictLabels);// ['B', 'A']

1.1.2 决策树

一、定义

决策树 (Decision Tree)是在已知各种状况产生概率的根底上,通过形成决策树来求取净现值的期望值大于等于零的概率,评估项目风险,判断其可行性的决策分析办法,是直观使用概率分析的一种图解法。决策树是一种树形构造,其中每个外部节点示意一个属性上的测试,每个分支代表一个测试输入,每个叶节点代表一种类别。

二、优缺点

  1. 长处

    • 计算复杂度不高
    • 输入后果易于了解
    • 对两头值的缺失不敏感
    • 能够解决间断和品种字段
    • 能够解决不相干特色数据
  2. 毛病

    • 可能呈现过拟合景象,须要进行剪枝操作
    • 对于各类别样本数量不统一的数据,信息增益偏差于那些更多数值的特色

三、利用场景

罕用于解决分类和回归问题,用该算法的前提条件是:

1. 具备决策者冀望达到的明确指标
2. 存在决策者能够抉择的两个以上的可行的备选计划
3. 存在决策者无法控制的两个以上不确定因素
4. 不同计划在不同因素下的收益或损失能够计算出来
5. 决策者能够预计不确定因素产生的概率

四、重点知识点

  1. 信息熵

信息是很形象的概念,很难进行量化对量,为了解决对信息的量化度量问题,香农提出了“信息熵”的概念。信息熵是在信息的根底上,将有可能产生的信息定义为一个随机变量,变量的冀望就是信息熵。信息熵的计算公式为(单位为比特):

注:熵是用来度量不确定性,熵越大则其不确定性越大,反之越小

  1. 信息增益

信息增益在决策树算法中是用来抉择特色的指标,信息增益越大,则这个特色的选择性越好,在概率论中定义为:待分类的汇合的熵和选定某个特色的条件熵之差。其计算公式为:

注:

  • g(D, A) 示意特色 A 对训练数据集 D 的信息增益
  • H(D) 示意汇合 D 的信息熵
  • H(D|A) 示意条件熵
  1. 罕用算法

(1)ID3 算法

ID3 算法是采纳信息增益作为特征选择的规范,信息增益越大,阐明按此特色分类后越能打消信息的不确定性。

(2)C4.5 算法

ID3 算法具备两大毛病:一个是类别越多的特色计算出的信息增益越大,易导致生成的决策树广而浅;另一个是只能解决离散变量,不能解决连续变量。C4.5 是在 ID3 的算法根底上采纳信息增益率作为特征选择,通过减少类别的惩办因子,躲避了类别越多信息增益越大的问题,同时也能够对连续变量通过均值离散化的形式解决无奈解决连续变量的问题。

(3)CART 算法

C4.5 存在不能解决回归问题的毛病,该毛病由 CART 解决。CART 不在通过信息熵的形式选取最优划分特色,而是采纳基尼系数(基尼不纯度),两者掂量信息量的作用相当,但基尼系数因为没有对数运算,可大大减少计算开销。

五、代码

const irisDataset = require('ml-dataset-iris');
const {DecisionTreeClassifier} = require('ml-cart');

// 获取训练集中的特征值
const dataSet = irisDataset.getNumbers();
// 获取训练集中的目标值,并转换为标量
const labels = irisDataset
    .getClasses()
    .map(elem => irisDataset.getDistinctClasses().indexOf(elem));

// 实例化决策树的分类器
const dTClassifier = new DecisionTreeClassifier({
    gainFunction: 'gini',
    maxDepth: 10,
    minNumSamples: 3
});

// 进行训练
dTClassifier.train(dataSet, labels);

const predictDataset = [[5.1,3.5,1.4,0.2]];

// 进行预测
const result = dTClassifier.predict(predictDataset);

// 后果转换为对应的文本模式
console.log(result.map(value => irisDataset.getDistinctClasses()[value]));

1.1.3 随机森林

一、定义

在机器学习中,随机森林是一个蕴含多个决策树的分类器,其输入的类别是由个别树输入的类别的众数而定(随机森林就是通过集成学习的思维将多棵树集成的一种算法,其根本单元是决策树)。

二、优缺点

  1. 长处

    • 具备极好的准确率(由集成算法的特点引入)
    • 抗过拟合能力:通过均匀决策树,升高过拟合的风险性(由随机这个特点引入)
    • 可能无效地运行在大数据集上,解决具备高维特色的输出样本,而且不须要降维
    • 可能评估各个特色在分类问题上的重要性
  2. 毛病

    • 在某些乐音较大的分类或回归问题上会过拟合
    • 比决策树算法更简单,计算成本更高

三、重要知识点

  1. 随机森林的每棵树的生成规定(A 示意训练集总样本个数、N 示意训练样本个数、M 示意特色个数)

(1)对于每棵树随机有放回的从训练集中抽取 N 个训练样本,作为该树的训练集
(2)指定一个常数 m <<M,随机地从 M 个特色中选取 m 个特色子集,每次树进行决裂时,从这 m 个特色中抉择最优的
(3)每棵树都尽最大水平的成长,并且没有剪枝过程。

  1. 为什么要随机抽样训练集?

随机抽样是为了保障每棵树的训练集都不一样,若不随机抽样会导致最终训练出的分类后果齐全一样。

  1. 为什么要有放回的抽样?

有放回的抽样能力保障每次抽取时的概率是一样的,达到独立同散布,可保障每一棵决策树都是互相独立的。

  1. 随机森林分类成果(错误率)相干因素?

(1)森林中任意两棵树的相关性:相关性越大,错误率越大

(2)森林中每棵树的分类能力:每棵树的分类能力越强,整个森林的错误率越低

(注:减小特征选择个数 m,树的相关性和分类能力会相应升高,反之会随之增大)

四、代码

const irisDataset = require('ml-dataset-iris');
const {RandomForestClassifier} = require('ml-random-forest');

// 获取训练集中的特征值
const dataSet = irisDataset.getNumbers();
// 获取训练集中的目标值,并转换为标量
const labels = irisDataset
    .getClasses()
    .map(elem => irisDataset.getDistinctClasses().indexOf(elem));

// 实例化分类器
const rFClassifier = new RandomForestClassifier({
    seed: 3,
    maxFeatures: 0.8,
    replacement: true,
    nEstimators: 25
});

// 进行训练
rFClassifier.train(dataSet, labels);

const predictDataset = [[5.1,3.5,1.4,0.2]];

// 进行预测
const result = rFClassifier.predict(predictDataset);

// 后果转换为对应的文本模式
console.log(result.map(value => irisDataset.getDistinctClasses()[value]));

1.1.4 奢侈贝叶斯

一、定义

奢侈贝叶斯法(NBC)是基于贝叶斯定理与特色条件独立假如的分类办法。先通过已给定的训练集,以特征词之间独立作为前提假如,学习从输出到输入的联结概率分布,再基于学习到的模型,输出 X 求出使得后验概率最大的输入 Y。

二、优缺点

  1. 长处

    • 奢侈贝叶斯模型发祥于古典数学实践,有稳固的分类效率
    • 对缺失数据不敏感,算法简略,罕用于文本分类
    • 分类准确度高,速度快
  2. 毛病

    • 应用了样本独立性的假如,如果特色属性由关联性其成果较差

三、利用场景

  1. 文本分类
  2. 文字辨认
  3. 图像识别

四、重要知识点

  1. 贝叶斯公式

注:贝叶斯公式是买通 P(W|C) 和 P(C|W) 的桥梁

  1. 为什么引入拉普拉斯平滑系数

为了避免计算出的分类概率为 0,所以引入拉普拉斯平滑系数,即让 P(W1|C)不为 0,其计算公式为:

注:其中 α 为指定系数,个别为 1;m 为训练文档中统计出的特征词个数

  1. 三种贝叶斯模型

(1)高斯分布奢侈贝叶斯——用于个别分类问题

(2)多项式散布奢侈贝叶斯——实用于文本数据(特色示意的是次数)

(3)伯努利散布奢侈贝叶斯——实用于伯努利散布、文本数据(特色示意的是是否呈现)

五、代码

const irisDataset = require('ml-dataset-iris');
const {GaussianNB} = require('ml-naivebayes');

// 获取训练集中的特征值
const dataSet = irisDataset.getNumbers();

// 获取训练集中的目标值
const labels = irisDataset
    .getClasses()
    .map(elem => irisDataset.getDistinctClasses().indexOf(elem));


// 实例化分类器
const gaussianNB = new GaussianNB();
// 进行训练
gaussianNB.train(dataSet, labels);

const predictDataset = [[5.1,3.5,1.4,0.2]];

// 进行预测
const result = gaussianNB.predict(predictDataset);

// 后果转换为对应的文本模式
console.log(result.map(value => irisDataset.getDistinctClasses()[value]));

1.1.5 反对向量机

一、定义

反对向量机(SVM)是一类按监督学习形式对数据进行二元分类的狭义线性分类器,其决策边界是对学习样本求解的最大边距超平面。

二、优缺点

  1. 长处

    • 有严格的数学实践反对,可解释性强,不依附统计办法,简化了通常的分类和回归问题。
    • 上述反对向量决定了最终后果,对异样值不敏感,能够帮忙抓住要害样本,剔除大量冗余样本
    • 该算法简略且具备较好的“鲁棒性”
    • 计算的复杂度取决于反对向量的数目,而不是样本空间的维数,某种意义上防止了“维数劫难”
    • 泛化能力较强
  2. 毛病

    • 对大规模训练样本难以施行:SVM 的空间耗费次要是存储训练样本和核矩阵,因为 SVM 是借助二次布局来求解反对向量,而求解二次布局将波及 m 阶矩阵的运算,当 m 数目很大时该矩阵的存储和计算将消耗大量的机器内存和运算工夫。
    • 解决多分类问题艰难:经典的反对向量机算法只给出了二类分类算法,解决多分类问题须要通过多个二类反对向量机的组合来解决(一对多组合模式、一对一组合模式和 SVM 决策树)。
    • 对参数和核函数抉择敏感:反对向量机性能的优劣次要取决于核函数的选取。

三、利用场景

SVM 在各畛域的模式识别问题中有利用,包含人像辨认、文本分类、手写字符识别、生物信息学等。

四、重要知识点

  1. 重要概念

(1)线性可分:在二维空间上,两类点被一条直线齐全离开叫做线性可分

(2)最大距离超平面:从二维扩大到多维空间中,将两个点集完全正确地划分开就造成一个超平面,为了使这个超平面更具鲁棒性,则会找最佳超平面(即为最大距离超平面,该立体是以最大距离把两类样本离开的超平面)。(两类样本别离宰割在该超平面的两侧、两侧间隔超平面最近的样本点到超平面的间隔被最大化了)

(3)反对向量:样本中距离超平面最近的一些点叫反对向量

(4)软距离:对于不可能齐全线性可分的样本可引入软距离,相比于硬距离的刻薄条件,软距离容许个别样本呈现在距离带外面。(注:硬距离和软距离均是在说样本的齐全线性可分或者大部分样本点的线性可分)

  1. 对于线性不可分解决形式

将线性不可分样本映射到高维空间中,使样本在高维空间线性可分,此时因为维度进步会导致计算量增大,所以须要应用核函数帮忙解决,引入核函数后就不须要计算高维甚至无穷维空间的内积了。

  1. 引入核函数的益处

(1)缩小了计算量

(2)缩小了存储数据的内存使用量

  1. 常见核函数分类

(1)线性核函数
(2)多项式核函数
(3)高斯核函数

五、代码

const SVM = require('libsvm-js/asm');

const svm = new SVM({
    kernel: SVM.KERNEL_TYPES.RBF,
    type: SVM.SVM_TYPES.C_SVC,
    gamma: 1,
    cost: 1
});

const dataSet = [[0, 0], [1, 1], [1, 0], [0, 1]];
const labels = [0, 0, 1, 1];
// 进行训练
svm.train(dataSet, labels);

// 进行预测
const predictedLabel = svm.pred

1.2 回归算法

1.2.1 线性回归

一、定义

线性回归是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种剖析形式。只有一个自变量的状况称为单变量回归,大于一个自变量的状况叫做多元回归。

二、优缺点

  1. 长处

    • 思维简略、容易实现、建模迅速,对于小数据量、简略关系情景的很无效
    • 是须要弱小的非线性模型的根底
    • 了解容易,其后果具备很好的可解释型,有利于决策分析。
    • 能解决回归问题
  2. 毛病

    • 对于非线性数据或者数据特色间具备相关性多项式回归难以建模
    • 难以很好地表白高度简单的数据

三、利用场景

  1. 趋势线(工夫序列数据的长期走势)
  2. 流行病学
  3. 金融(剖析和计算投资的零碎危险)
  4. 经济学(预测生产收入、固定投资收入等)

四、重要知识点

  1. 回归目标——预测数值型的目标值
  2. 回归性能评估指标——均方误差(MSE)
  3. 过拟合

(1)定义:一个建设在训练数据上可能取得比其它假如更好的拟合,然而在测试数据集上却不能很好地拟合数据,此时认为这个假如呈现了过拟合景象。(模型过于简单)

(2)起因:原始特色过多,存在一些嘈杂特色

(3)解决办法:正则化

4. 欠拟合

(1)定义:一个假如在训练数据集上不能取得很好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假如呈现了欠拟合的景象。(模型过于简略)

(2)起因:学习到数据的特色过少

(3)解决办法:减少数据的特色数量

  1. 正则化

(1)L2 正则化

L2 正则化能够使得其中一些 W 都很小(靠近于 0),减弱某个特色影响。Ridge 回归就是用的 L2 正则化。

(2)L1 正则化

L1 正则化能够使得其中一些 W 的值间接为 0,删除整个特色的影响。LASSO 回归用的就是 L1 正则化。

五、代码

const SimpleLinearRegression = require('ml-regression-simple-linear');

const x = [0.5, 1, 1.5, 2, 2.5];
const y = [0, 1, 2, 3, 4];

const regression = new SimpleLinearRegression(x, y);

const result = regression.predict(3);

console.log(result);

二、非监督学习算法

2.1 K- 均值聚类算法

一、定义

K 均值聚类算法是一种迭代求解的聚类分析算法,其步骤为:

  1. 随机设置 K 个特色空间内的点作为初始的聚类核心
  2. 对于其它每个点计算到 K 个核心的间隔,地位的点抉择最近的一个聚类中心点作为标记类别
  3. 接着从新计算出每个聚类的新中心点(平均值)
  4. 如果计算得出的新中心点与原中心点一样,则完结,否则从新进行第二步过程

二、优缺点

  1. 长处

    • 原理简略,容易实现,算法复杂度低
    • 可解释度较强
    • 解决大数据集的时候,该算法能够保障较好的伸缩性
    • 当簇近似高斯分布的时候成果很好
  2. 毛病

    • K 值须要人为设定,不同 K 值得到的后果不一样
    • 对初始的簇核心敏感,不同选取形式会失去不同后果
    • 对异样值敏感
    • 需样本存在均值(限定数据品种)
    • 不适宜太离散的分类、样本类别不平衡的分类、非凸形态的分类
    • 可能收敛到部分最小值

三、代码

const kmeans = require('ml-kmeans');

// 须要进行聚类的全副数据
const data = [[1, 1, 1], [-1, -1, -1], [-1, -1, -1.5], [1, 2, 1]];

// 质心
const centers = [[1, 2, 1], [-1, -1, -1]];

const ans = kmeans(data, 2, {initialization: centers});

console.log(ans);

相干文章

前端也要懂机器学习(上)

参考文献

反对向量机 SVM(十分具体)

1. 如果感觉这篇文章还不错,来个分享、点赞吧,让更多的人也看到

2. 关注公众号执鸢者,支付学习材料(前端“多兵种”材料),定期为你推送原创深度好文

正文完
 0