数据挖掘建模需要什么样的数据多大量

数据挖掘通常须要结构化数据能力建模，而不是近些年来冷落的非结构化数据，预测建模依然是结构化数据上的运算！

所谓结构化数据，是指体现为二维模式的数据，个别特点是：数据以行（也称样本）为单位，一行数据表示一个实体的信息，每一行数据的属性（也称字段或列）是雷同的。结构化数据能够来自于数据库，也能够来自于文本文件或 Excel。

例如预测 titanic 幸存者数据见下图，就是一个结构化数据，数据的每一行示意一个乘客样本，每一列的属性都是雷同的例如”Age”列都示意乘客的年龄，这样的数据是能够拿来建模的。

对于监督型学习来说，数据中还要必须蕴含指标变量，指标变量就是咱们要预测的那个指标。例如在 titanic 的例子中，要预测的是乘客的生存状态（生存还是死亡）因而“Survived”就是该模型的指标变量。当然数据中还要有肯定数量的特色变量，特色变量太少或者都是无关特色也无奈建出好模型。

在数据量方面，首先数据量太少是不行的，数据量太少算法很难学习到数据中法则，通常即便是很简略的问题也须要几百或几千的样本量。特地须要留神的是，在一些不均衡的样本中，尽管样本总量不少然而因为阳性率太低（咱们关怀的景象太少，如预测故障时历史数据中简直没有故障记录）造成阳性样本相对数量很少，这样也是很难建出无效模型的。反之，在采样时也不可能全部都是阳性样本的数据，例如，要建模预测贷款用户守约状况，不能只采集所有守约客户的数据，失常客户的数据也要采集。

数据量太少不行，是不是越大越好呢，并不是。对于传统的数据挖掘办法来说，并不需要太大的数据量，通常几万或十几万的样本就曾经够用。当数据量过大时一方面会消耗大量计算工夫和计算资源，另一方面成果晋升却不显著，反而有可能会减少数据乐音。因而在建模取数时要留神正当的采集样本和特色。

对进一步数据挖掘和 AI 技术感兴趣的同学还能够搜寻“乾学院”，下面有面向小白的零根底“数据挖掘”收费课程，或者间接点上面的链接也能够：
http://www.raqsoft.com.cn/wx/course-data-mining.html

[](http://www.raqsoft.com.cn/wx/…

数据挖掘建模需要什么样的数据多大量

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

数据挖掘建模需要什么样的数据多大量

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复