乐趣区

数据挖掘是什么能解决什么问题

数据挖掘其实是个“古老”的技术,曾经有几十年历史了,近年来红火的人工智能又让这个古老技术有了更多关注。

那么,到底什么是数据挖掘呢?它又能做什么事呢?

黄昏小街路面上沁出微雨后的潮湿,温煦的细风吹来,低头看看天边的朝霞,嗯,今天又是一个好天气。走到水果摊旁,挑了个根蒂伸直、敲起来声音浊响的青绿西瓜,心里期待着享受这个好瓜。

由路面微湿、大风、朝霞得出今天是个好天气。根蒂伸直、敲声浊响、色泽青绿推断出这是个好瓜,显然,咱们是依据以往的教训来对将来或未知的事物做出预测。

人能够依据教训对将来进行预测,那么机器能帮咱们做这些吗?

能,这就是数据挖掘。

“教训”通常以“数据”的模式存在,数据挖掘的工作就是从历史数据(之前挑瓜的经验,留神是经验还不是教训)中挖掘出有用的“常识”,也就是所谓“模型”(当初就造成教训了),在面对新状况时(未抛开的瓜)模型就能够用来预测(是不是好瓜)。

用高中生能了解的数学语言来讲,数据挖掘建模工作的实质就是,依据一些历史已有的、从输出空间 X(如 {[色泽青绿;根蒂伸直;敲声浊响],[色泽漆黑;根蒂伸直;敲声爽朗],[色泽浅白;根蒂硬挺;敲声清脆]})到输入空间 Y(如 {好瓜,坏瓜,坏瓜})的对应,找出一个函数 f:这个函数就是咱们要的模型。有了模型之后再做预测就简略了,也就是拿一套新 x,用这个函数算一个 y 进去就完了。

那么,模型又是怎么建设进去,也就是这个函数是怎么找进去的呢?

想想如何让一个人领有判断瓜好坏的能力呢?

须要用一批瓜来练习,获取剖开前的特色(色泽、根蒂、敲声等),而后再剖开它看好坏。长此以往,这个人就能学会用剖开前瓜的特色来判断瓜的好坏了。奢侈地想,用来练习的瓜越多,可能取得的教训也就越丰盛,当前的判断也就会越精确。

用机器做数据挖掘是一样的情理,咱们须要应用历史数据(用来练习的瓜)来建设模型,而建模过程也被称为训练或学习,这些历史数据称为训练数据集。训练好了模型后,就好象发现了数据的某种法则,就能够拿来做预测了。

也就是说,数据挖掘是用来做预测的,而要做到这种预测,须要有足够多曾经有后果的历史数据为根底。

那么,这种预测技术如何在咱们的生产销售过程中利用呢?

以贷款业务为例,金融机构要做危险管制,避免坏帐,就要在放贷前晓得这个贷款人未来不能按时还款的危险,从而决定是否放贷以及贷款利率。

要做到这件事,咱们要有肯定数量的历史数据,也就是以前贷款人及贷款业务的各种信息,比方贷款人的收入水平、受教育水平、寓居地区、信用历史、负债率等等可能会影响守约率的因素,还有贷款自身的金额、期限、利率等等。须要留神的是历史数据中肯定要同时蕴含好客户和坏客户(也是在产生守约不还款的客户),并且坏客户的数量不能过少。

通常能够截取近几个月或近一年的历史数据作为训练数据,定义好指标变量 Y(如坏客户为 1,好客户为 0),而后就能够应用数据挖掘技术建设模型来寻找用户及贷款的各种信息 X 和指标 Y 之间的关系。建好的模型能够用来预测,及时发现高风险用户。

须要阐明的,数据挖掘模型的预测并不能保障 100% 精确(有很多种方法来评估它的准确率),所以如果只有一例指标(比方只有一笔贷款)须要预测时,那就没有意义了。但通常,咱们会须要都会有很多例指标须要预测,这样即便不是每一例都能预测正确,但能保障肯定的准确率,这依然是很有意义的。对于贷款业务,模型找进去的高风险客户未必都是真地,但准确率只有足够高,依然可能无效的防备危险。

数据挖掘技术能够宽泛地利用于各行各业,工业畛域中能够依据历史生产数据来预测良品状况,从而改良工艺参数升高不良率;畜牧业能够应用数据挖掘技术依据测量家畜体温来预测家畜是否生病,从而提前防治;医院也能够应用历史医疗记录基于数据挖掘技术找出关联法则,帮忙医生更好地诊断疾病。

对进一步数据挖掘和 AI 技术感兴趣的同学还能够搜寻“乾学院”,下面有面向小白的零根底“数据挖掘”收费课程,或者间接点上面的链接也能够:

http://www.raqsoft.com.cn/wx/course-data-mining.html

退出移动版