关于数据挖掘:思迈特软件Smartbi数据挖掘

46次阅读

共计 2962 个字符,预计需要花费 8 分钟才能阅读完成。

数据挖掘的定义

数据挖掘是指从大量的数据中通过算法搜寻暗藏于其中信息的过程。

数据挖掘通常与计算机科学无关,并通过统计、在线剖析解决、情报检索、机器学习、专家系统(依附过来的教训法令)和模式识别等诸多办法来实现上述指标。

数据挖掘的对象

数据的类型能够是结构化的、半结构化的,甚至是异构型的。发现常识的办法能够是数学的、非数学的,也能够是演绎的。最终被发现了的常识能够用于信息管理、查问优化、决策反对及数据本身的保护等。

数据挖掘的对象能够是任何类型的数据源。能够是关系数据库,此类蕴含结构化数据的数据源;也能够是数据仓库、文本、多媒体数据、空间数据、时序数据、Web 数据,此类蕴含半结构化数据甚至异构性数据的数据源。

发现常识的办法能够是数字的、非数字的,也能够是演绎的。最终被发现的常识能够用于信息管理、查问优化、决策反对及数据本身的保护等。

数据挖掘的步骤

1、定义问题。在开始常识发现之前最先的也是最重要的要求就是理解数据和业务问题。必须要对指标有一个清晰明确的定义,即决定到底想干什么。比方,想进步电子信箱的利用率时,想做的可能是“进步用户使用率”,也可能是“进步一次用户应用的价值”,要解决这两个问题而建设的模型简直是齐全不同的,必须做出决定。

2、建设数据挖掘库。建设数据挖掘库包含以下几个步骤:数据收集,数据形容,抉择,数据品质评估和数据清理,合并与整合,构建元数据,加载数据挖掘库,保护数据挖掘库。

3、剖析数据。剖析的目标是找到对预测输入影响最大的数据字段,和决定是否须要定义导出字段。如果数据集蕴含成千盈百的字段,那么浏览剖析这些数据将是一件十分耗时和累人的事件,这时须要抉择一个具备好的界面和功能强大的工具软件来帮助你实现这些事件。

4、筹备数据。这是建设模型之前的最初一步数据筹备工作。能够把此步骤分为四个局部:抉择变量,抉择记录,创立新变量,转换变量。

5、建设模型。建设模型是一个重复的过程。须要认真考查不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建设模型,而后再用剩下的数据来测试和验证这个失去的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的个性的影响,这时须要一个独立的数据集来验证模型的准确性。训练和测试数据挖掘模型须要把数据至多分成两个局部,一个用于模型训练,另一个用于模型测试。

6、评估模型。模型建设好之后,必须评估失去的后果、解释模型的价值。从测试集中失去的准确率只对用于建设模型的数据有意义。在理论利用中,须要进一步理解谬误的类型和由此带来的相干费用的多少。教训证实,无效的模型并不一定是正确的模型。造成这一点的间接起因就是模型建设中隐含的各种假设,因而,间接在事实世界中测试模型很重要。先在小范畴内利用,获得测试数据,感觉称心之后再向大范畴推广。

7、施行。模型建设并教训证之后,能够有两种次要的应用办法。第一种是提供给剖析人员做参考;另一种是把此模型利用到不同的数据集上。

数据挖掘的办法

1、分类。它首先从数据中选出曾经分好类的训练集,在该训练集上使用数据挖掘技术,建设一个分类模型,再将该模型用于对没有分类的数据进行分类。

2、估值。估值与分类相似,但估值最终的输入后果是连续型的数值,估值的量并非预先确定。估值能够作为分类的筹备工作。

3、预测。它是通过分类或估值来进行,通过分类或估值的训练得出一个模型,如果对于测验样本组而言该模型具备较高的准确率,可将该模型用于对新样本的未知变量进行预测。

4、相关性分组或关联规定。其目标是发现哪些事件总是一起产生。

5、聚类。它是主动寻找并建设分组规定的办法,它通过判断样本之间的相似性,把类似样本划分在一个簇中。

数据挖掘算法

1、神经网络法

神经网络法是模仿生物神经系统的构造和性能,是一种通过训练来学习的非线性预测模型,它将每一个连贯看作一个处理单元,试图模仿人脑神经元的性能,可实现分类、聚类、特色开掘等多种数据挖掘工作。神经网络的学习办法次要体现在权值的批改上。其长处是具备抗干扰、非线性学习、联想记忆性能,对简单状况能失去准确的预测后果;毛病首先是不适宜解决高维变量,不能察看两头的学习过程,具备“黑箱”性,输入后果也难以解释;其次是需较长的学习工夫。神经网络法次要利用于数据挖掘的聚类技术中。

2、决策树法

决策树是依据对指标变量产生效用的不同而建构分类的规定,通过一系列的规定对数据进行分类的过程,其表现形式是相似于树形构造的流程图。最典型的算法是 J.R.Quinlan 于 1986 年提出的 ID3 算法,之后在 ID3 算法的根底上又提出了极其风行的 C4.5 算法。采纳决策树法的长处是决策制定的过程是可见的,不须要长时间结构过程、形容简略,易于了解,分类速度快;毛病是很难基于多个变量组合发现规定。决策树法善于解决非数值型数据,而且特地适宜大规模的数据处理。决策树提供了一种展现相似在什么条件下会失去什么值这类规定的办法。比方,在贷款申请中,要对申请的危险大小做出判断。

3、遗传算法

遗传算法模仿了自然选择和遗传中产生的滋生、交配和基因突变景象,是一种采纳遗传联合、遗传穿插变异及自然选择等操作来生成实现规定的、基于进化实践的机器学习办法。它的根本观点是“适者生存”原理,具备隐含并行性、易于和其余模型联合等性质。次要的长处是能够解决许多数据类型,同时能够并行处理各种数据;毛病是须要的参数太多,编码艰难,个别计算量比拟大。遗传算法罕用于优化神经元网络,可能解决其余技术难以解决的问题。

4、粗糙集法

粗糙集法也称粗糙集实践,是由波兰数学家 Z Pawlak 在 20 世纪 80 年代初提出的,是一种新的解决含混、不准确、不齐备问题的数学工具,能够解决数据约简、数据相关性发现、数据意义的评估等问题。其长处是算法简略,在其处理过程中能够不须要对于数据的先验常识,能够主动找出问题的外在法则;毛病是难以间接解决间断的属性,须先进行属性的离散化。因而,间断属性的离散化问题是制约粗糙集实践实用化的难点。粗糙集实践次要利用于近似推理、数字逻辑剖析和化简、建设预测模型等问题。

5、模糊集法

模糊集法是利用含糊汇合实践对问题进行含糊评判、含糊决策、含糊模式识别和含糊聚类分析。含糊汇合实践是用附属度来形容含糊事物的属性。零碎的复杂性越高,模糊性就越强。

6、关联规定法

关联规定反映了事物之间的互相依赖性或关联性。其最驰名的算法是 R.Agrawal 等人提出的 Apriori 算法。其算法的思维是:首先找出频繁性至多和预约意义的最小反对度一样的所有频集,而后由频集产生强关联规定。最小反对度和最小可信度是为了发现有意义的关联规定给定的 2 个阈值。在这个意义上,数据挖掘的目标就是从源数据库中挖掘出满足最小反对度和最小可信度的关联规定。

以上是思迈特软件 Smartbi 的分享,更多行业干货可关注咱们下一期的分享。思迈特软件 Smartbi 是出名国产 BI 品牌, 专一于商业智能 BI 与大数据 BI 剖析平台软件产业的研发及服务。通过多年继续自主研发,凝聚大量商业智能最佳实践经验,整合了各行业的数据分析和决策反对的性能需要。满足最终用户在企业级报表、数据可视化剖析、自助摸索剖析、数据挖掘建模、AI 智能剖析等大数据分析需要。

现个人版提供全模块长期收费应用,有趣味的小伙伴可登陆官网收费试用~

正文完
 0