共计 899 个字符,预计需要花费 3 分钟才能阅读完成。
数据挖掘通常须要 结构化数据 能力建模,而不是近些年来冷落的非结构化数据,预测建模依然是结构化数据上的运算!
所谓结构化数据,是指体现为二维模式的数据,个别特点是:数据以行(也称样本)为单位,一行数据表示一个实体的信息,每一行数据的属性(也称字段或列)是雷同的。结构化数据能够来自于数据库,也能够来自于文本文件或 Excel。
例如预测 titanic 幸存者数据见下图,就是一个结构化数据,数据的每一行示意一个乘客样本,每一列的属性都是雷同的例如”Age”列都示意乘客的年龄,这样的数据是能够拿来建模的。
对于监督型学习来说,数据中还要必须蕴含指标变量,指标变量就是咱们要预测的那个指标。例如在 titanic 的例子中,要预测的是乘客的生存状态(生存还是死亡)因而“Survived”就是该模型的指标变量。当然数据中还要有肯定数量的特色变量,特色变量太少或者都是无关特色也无奈建出好模型。
在数据量方面,首先数据量太少是不行的,数据量太少算法很难学习到数据中法则,通常即便是很简略的问题也须要几百或几千的样本量。特地须要留神的是,在一些不均衡的样本中,尽管样本总量不少然而因为阳性率太低(咱们关怀的景象太少,如预测故障时历史数据中简直没有故障记录)造成阳性样本相对数量很少,这样也是很难建出无效模型的。反之,在采样时也不可能全部都是阳性样本的数据,例如,要建模预测贷款用户守约状况,不能只采集所有守约客户的数据,失常客户的数据也要采集。
数据量太少不行,是不是越大越好呢,并不是。对于传统的数据挖掘办法来说,并不需要太大的数据量,通常几万或十几万的样本就曾经够用。当数据量过大时一方面会消耗大量计算工夫和计算资源,另一方面成果晋升却不显著,反而有可能会减少数据乐音。因而在建模取数时要留神正当的采集样本和特色。
对进一步数据挖掘和 AI 技术感兴趣的同学还能够搜寻“乾学院”,下面有面向小白的零根底“数据挖掘”收费课程,或者间接点上面的链接也能够:
http://www.raqsoft.com.cn/wx/course-data-mining.html
[](http://www.raqsoft.com.cn/wx/…