【机器学习入门与实际】合集入门必看系列,含数据挖掘我的项目实战
我的项目链接合集(必看)
我的项目专栏合集 https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc 必看
1.【机器学习入门与实际】合集入门必看系列
逻辑回归(Logistic regression,简称 LR)尽管其中带有 ” 回归 ” 两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。尽管当初深度学习绝对于这些传统办法更为炽热,但实则这些传统办法因为其独特的劣势仍然广泛应用于各个领域中。
A. 机器学习算法入门系列(二): 基于鸢尾花数据集的素贝叶斯分类预测
奢侈贝叶斯算法(Naive Bayes, NB) 是利用最为宽泛的分类算法之一。它是基于贝叶斯定义和特色条件独立假如的分类器办法。因为奢侈贝叶斯法基于贝叶斯公式计算失去,有着松软的数学根底,以及稳固的分类效率。NB 模型所需预计的参数很少,对缺失数据不太敏感,算法也比较简单。当年的垃圾邮件分类都是基于奢侈贝叶斯分类器辨认的。
[A. 机器学习系列入门系列[三]:基于 horse-colic 的 KNN 近邻分类预测:](https://www.heywhale.com/mw/project/64191d3bf3da25f228360cea)
kNN(k-nearest neighbors),中文翻译 K 近邻。咱们经常听到一个故事:如果要理解一个人的经济程度,只须要晓得他最好的 5 个敌人的经济能力,对他的这五个人的经济程度求均匀就是这个人的经济程度。这句话外面就蕴含着 kNN 的算法思维。
[A. 机器学习系列入门系列[四]:基于反对向量机的分类预测](https://www.heywhale.com/mw/project/641ab7cdf3da25f22859c49b)
反对向量机(Support Vector Machine,SVM)是一个十分优雅的算法,具备十分欠缺的数学实践,罕用于数据分类,也能够用于数据的回归预测中,因为其其柔美的实践保障和利用核函数对于线性不可分问题的解决技巧
[A. 机器学习系列入门系列[五]:基于企鹅数据集的决策树分类预测](https://www.heywhale.com/mw/project/641abb78f3da25f2285a1fc0)
决策树是一种常见的分类模型,在金融风控、医疗辅助诊断等诸多行业具备较为宽泛的利用。决策树的核心思想是基于树结构对数据进行划分,这种思维是人类解决问题时的本能办法。因为决策树模型中自变量与因变量的非线性关系以及决策树简略的计算方法,使得它成为集成学习中最为宽泛应用的基模型。梯度晋升树(GBDT),XGBoost 以及 LightGBM 等先进的集成模型都采纳了决策树作为基模型,在广告计算、CTR 预估、金融风控等畛域大放异彩,成为当今与神经网络等量齐观的简单模型,更是数据挖掘较量中的常客。在新的钻研中,南京大学周志华传授提出一种多粒度级联森林模型,发明了一种全新的基于决策树的深度集成办法,为咱们提供了决策树倒退的另一种可能。
[A. 机器学习系列入门系列[六]:基于天气数据集的 XGBoost 分类预测:](https://www.heywhale.com/mw/project/641ad138f3da25f2285c12cc)
XGBoost 是 2016 年由华盛顿大学陈天奇老师率领开发的一个可扩大机器学习零碎。严格意义上讲 XGBoost 并不是一种模型,而是一个可供用户轻松解决分类、回归或排序问题的软件包。它外部实现了梯度晋升树 (GBDT) 模型,并对模型中的算法进行了诸多优化,在获得高精度的同时又放弃了极快的速度,在一段时间内成为了国内外数据挖掘、机器学习畛域中的大规模杀伤性武器。
更重要的是,XGBoost 在系统优化和机器学习原理方面都进行了深刻的思考。毫不夸大的讲,XGBoost 提供的可扩展性,可移植性与准确性推动了机器学习计算限度的下限,该零碎在单台机器上运行速度比过后风行解决方案快十倍以上,甚至在分布式系统中能够解决十亿级的数据。
[A. 机器学习系列入门系列[七]:基于英雄联盟数据的 LightGBM 分类预测:](https://www.heywhale.com/mw/project/641b1106fe26f8a2468aa699)
LightGBM 是 2017 年由微软推出的可扩大机器学习零碎,是微软旗下 DMKT 的一个开源我的项目,它是一款基于 GBDT(梯度晋升决策树)算法的分布式梯度晋升框架,为了满足缩短模型计算工夫的需要,LightGBM 的设计思路次要集中在减小数据对内存与计算性能的应用,以及缩小多机器并行计算时的通信代价。
LightGBM 底层实现了 GBDT 算法,并且增加了一系列的新个性:
- 基于直方图算法进行优化,使数据存储更加不便、运算更快、鲁棒性强、模型更加稳固等。
- 提出了带深度限度的 Leaf-wise 算法,摈弃了大多数 GBDT 工具应用的按层成长 (level-wise) 的决策树成长策略,而应用了带有深度限度的按叶子成长策略,能够升高误差,失去更好的精度。
- 提出了单边梯度采样算法,排除大部分小梯度的样本,仅用剩下的样本计算信息增益,它是一种在缩小数据量和保障精度上均衡的算法。
- 提出了互斥特色捆绑算法,高维度的数据往往是稠密的,这种稠密性启发咱们设计一种无损的办法来缩小特色的维度。通常被捆绑的特色都是互斥的(即特色不会同时为非零值,像 one-hot),这样两个特色捆绑起来就不会失落信息。
[A. 机器学习系列入门系列[八]:基于 BP 神经网络的乳腺癌分类预测](https://www.heywhale.com/mw/project/641b12667724171675b1daed)
BP(Back Propagation)网络是 1986 年由 Rumelhart 和 McCelland 为首的科学家小组提出,是一种按误差逆流传算法训练的多层前馈网络,是目前利用最宽泛的神经网络模型之一。BP 网络能学习和存贮大量的输出 - 输入模式映射关系,而无需事先揭示形容这种映射关系的数学方程。它的学习规定是应用最速降落法,通过反向流传来一直调整网络的权值和阈值,使网络的误差平方和最小。BP 神经网络模型拓扑构造包含输出层(input)、隐层 (hide layer) 和输入层(output layer)。在模仿过程中收集零碎所产生的误差,通过误差反传,而后调整权值大小,通过该一直迭代更新,最初使得模型趋于整体最优化(这是一个循环,咱们在训练神经网络的时候是要一直的去反复这个过程的)。
[A. 机器学习系列入门系列[九]:基于线性判断模型的 LDA 手写数字分类辨认:](https://www.heywhale.com/mw/project/641b12f77724171675b1e2a2)
线性判断模型(LDA)在模式识别畛域(比方人脸识别等图形图像辨认畛域)中有十分宽泛的利用。LDA 是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输入的。这点和 PCA 不同。PCA 是不思考样本类别输入的无监督降维技术。LDA 的思维能够用一句话概括,就是“投影后类内方差最小,类间方差最大”。咱们要将数据在低维度上进行投影,投影后心愿每一种类别数据的投影点尽可能的靠近,而不同类别的数据的类别核心之间的间隔尽可能的大。即:将数据投影到维度更低的空间中,使得投影后的点,会造成按类别辨别,一簇一簇的状况,雷同类别的点,将会在投影后的空间中更靠近办法。
2. 数据挖掘我的项目实战
[B. 机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据摸索特色工程等:](https://www.heywhale.com/mw/project/641dabcbfeb4fe02b2cd3f26)
[B. 机器学习实战系列[一]:工业蒸汽量预测(最新版本下篇)含特色优化模型交融等:](https://www.heywhale.com/mw/project/641f0c1afeb4fe02b2dcb7fa)
- 背景介绍
火力发电的基本原理是:燃料在焚烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,而后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的外围是锅炉的焚烧效率,即燃料焚烧加热水产生高温高压蒸汽。锅炉的焚烧效率的影响因素很多,包含锅炉的可调参数,如焚烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比方锅炉床温、床压,炉膛温度、压力,过热器的温度等。 - 相干形容
经脱敏后的锅炉传感器采集的数据(采集频率是分钟级别),依据锅炉的工况,预测产生的蒸汽量。 - 数据阐明
数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这 38 个字段是作为特色变量,”target”作为指标变量。选手利用训练数据训练出模型,预测测试数据的指标变量,排名后果根据预测后果的 MSE(mean square error)。 - 后果评估
预测后果以 mean square error 作为评判规范。
在工业蒸汽量预测上篇中,次要解说了数据探索性剖析:查看变量间相关性以及找出要害变量;数据特色工程对数据精进:异样值解决、归一化解决以及特色降维;在进行归回模型训练波及支流 ML 模型:决策树、随机森林,lightgbm 等。下一篇中将着重解说模型验证、特色优化、模型交融等。
【机器学习入门与实际】数据挖掘 - 二手车价格交易预测:
来自 Ebay Kleinanzeigen 报废的二手车,数量超过 370,000,蕴含 20 列变量信息,为了保障 较量的公平性,将会从中抽取 10 万条作为训练集,5 万条作为测试集 A,5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行 脱敏。
3. 总结
自己最近打算整合 ML、DRL、NLP 等相干畛域的体系化我的项目课程,不便入门同学疾速把握相干常识。申明:局部我的项目为网络经典我的项目不便大家疾速学习,后续会一直削减实战环节(较量、论文、事实利用等)
上述机器学习我的项目为最经典的我的项目,但因为原课程依赖的算法库和算子替换导致局部程序无奈运行,本次奉献点在于依照本人思路进行我的项目整合,其次是对 bug 修复保障案例全副调通,
我的项目链接合集(必看)
我的项目专栏合集 https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc 必看