关于数据挖掘:跟着小Mi一起数据处理吧数据处理系列的介绍和计划

为什么是数据处理系列呢

数据的重要性

在 AI 上的利用：AI 的应用领域有机器视觉、自然语言解决和广告举荐等，能够说都是搭建在定向的数据集上的。首先数据集从类型上分为：大抵能够分为图像、音频和文本数据集。

数据处理的用途：都说深度学习的门槛很高，我感觉有一点就是对算力的要求很高，常见的试验数据集自身就比拟大，须要用失去网络模型也比较复杂，这就造成十分大的计算量，进步算力是一个十分间接无效的办法，一个很好的数据处理对后续的训练也有很大帮忙，能够让数据特色更清晰，升高数据维度，从而升高对算力的应用，缩短训练的工夫。

探讨几个常见的数据问题

敢问数据从何处来？：当你看到这篇帖子时，你的浏览记录就多了一条数据。所以数据的产生十分宽泛，公众的生产记录、新闻博文和视频音乐都是常见的数据，不光这些，生物和物理这些迷信畛域的钻研也会有数据。所以万物皆可数据。

我要这数据有何用？：以史为镜，能够知兴替。我想这大抵也是对数据作用的诠释了，首先是数据记录了咱们的生存，这是咱们存在的证据。咱们还能够钻研数据中潜在的变动，解锁新的法则。机器学习的倒退衰亡，放慢了对数据的开掘，实现了对一些事物的预测和分类，所以数据浑身都是宝。

那么数据怎么用啊？：数据尽管这么有用，然而也不能拿来即用。首先咱们须要分明咱们要做什么，而后再抉择数据。比方咱们想要训练出一个能够辨认数字的模型，那么咱们最好能够抉择一些仅蕴含数字的图像当作数据集。MNIST 数据集就是这么来的。具体的应用咱们也须要做一些预处理操作，预处理的办法有很多，包含归一化、缺失值补充和降噪等办法，目标就是让模型更好学习数据集，从而失去咱们想要的模型。

说一下后续的分享打算

从加载数据开始：加载数据是数据预处理的根底，因而理解许多加载数据进行剖析的办法至关重要。数据集的存储格局也有很多种，所以咱们将尝试对多种不同数据的加载。

解决数据的工具：Python 自身的数据分析性能不是很强，所以须要装置一些第三方扩大库来辅助加强下数据处理。罕用的库有 Numpy、Scipy、Matplotlib、Pandas、Scikit-Learn、Keras 和 Gensim 等，后续将对这些库的根底操作进行简略的应用和总结。

数据预处理：数据的预处理在模型训练中也会占用很大一部分工夫，毕竟数据集决定模型的下限，这也是咱们迈向深度学习的一步。这里会蕴含很多的办法，这里就不先开展了，小 Mi 也将边学习边总结。

以上是分享的介绍和打算，心愿在小 Mi 学习的同时给大家带来些有用的货色，如果对内容或者打算有意见和倡议，欢送留言哦！