共计 1058 个字符,预计需要花费 3 分钟才能阅读完成。
为什么是数据处理系列呢
数据的重要性
在 AI 上的利用:AI 的应用领域有机器视觉、自然语言解决和广告举荐等,能够说都是搭建在定向的数据集上的。首先数据集从类型上分为:大抵能够分为图像、音频和文本数据集。
数据处理的用途:都说深度学习的门槛很高,我感觉有一点就是对算力的要求很高,常见的试验数据集自身就比拟大,须要用失去网络模型也比较复杂,这就造成十分大的计算量,进步算力是一个十分间接无效的办法,一个很好的数据处理对后续的训练也有很大帮忙,能够让数据特色更清晰,升高数据维度,从而升高对算力的应用,缩短训练的工夫。
探讨几个常见的数据问题
敢问数据从何处来?:当你看到这篇帖子时,你的浏览记录就多了一条数据。所以数据的产生十分宽泛,公众的生产记录、新闻博文和视频音乐都是常见的数据,不光这些,生物和物理这些迷信畛域的钻研也会有数据。所以万物皆可数据。
我要这数据有何用?:以史为镜,能够知兴替。我想这大抵也是对数据作用的诠释了,首先是数据记录了咱们的生存,这是咱们存在的证据。咱们还能够钻研数据中潜在的变动,解锁新的法则。机器学习的倒退衰亡,放慢了对数据的开掘,实现了对一些事物的预测和分类,所以数据浑身都是宝。
那么数据怎么用啊?:数据尽管这么有用,然而也不能拿来即用。首先咱们须要分明咱们要做什么,而后再抉择数据。比方咱们想要训练出一个能够辨认数字的模型,那么咱们最好能够抉择一些仅蕴含数字的图像当作数据集。MNIST 数据集就是这么来的。具体的应用咱们也须要做一些预处理操作,预处理的办法有很多,包含归一化、缺失值补充和降噪等办法,目标就是让模型更好学习数据集,从而失去咱们想要的模型。
说一下后续的分享打算
从加载数据开始:加载数据是数据预处理的根底,因而理解许多加载数据进行剖析的办法至关重要。数据集的存储格局也有很多种,所以咱们将尝试对多种不同数据的加载。
解决数据的工具:Python 自身的数据分析性能不是很强,所以须要装置一些第三方扩大库来辅助加强下数据处理。罕用的库有 Numpy、Scipy、Matplotlib、Pandas、Scikit-Learn、Keras 和 Gensim 等,后续将对这些库的根底操作进行简略的应用和总结。
数据预处理:数据的预处理在模型训练中也会占用很大一部分工夫,毕竟数据集决定模型的下限,这也是咱们迈向深度学习的一步。这里会蕴含很多的办法,这里就不先开展了,小 Mi 也将边学习边总结。
以上是分享的介绍和打算,心愿在小 Mi 学习的同时给大家带来些有用的货色,如果对内容或者打算有意见和倡议,欢送留言哦!