数据挖掘(英语:Data mining),又译为材料探勘、数据采矿。它是数据库常识发现(英语:Knowledge-Discovery in Databases,简称:KDD) 中的一个步骤。数据挖掘个别是指从大量的数据中主动搜寻暗藏于其中的有着非凡关系性(属于 Association rule learning)的信息的过程。数据挖掘通常与计算机科学无关,并通过统计、在线剖析解决、情报检索、机器学习、专家系统(依附过来的教训法令)和模式识别等诸多办法来实现上述指标。
在人工智能畛域,习惯上又称为数据库中的常识发现 (Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中常识发现过程的一个根本步骤。常识发现过程由以下三个阶段组成:(1)数据筹备,(2)数据挖掘,(3)后果表白和解释。数据挖掘能够与用户或知识库交互。数据挖掘是通过剖析每个数据,从大量数据中寻找其法则的技术,次要有数据筹备、法则寻找和法则示意 3 个步骤。数据筹备是从相干的数据源中选取所需的数据并整合成用于数据挖掘的数据集;法则寻找是用某种办法将数据集所含的法则找进去;法则示意是尽可能以用户可了解的形式(如可视化)将找出的法则示意进去。
数据挖掘的工作有关联剖析、聚类分析、分类剖析、异样剖析、特异群组剖析和演变剖析等等。
并非所有的信息发现工作都被视为数据挖掘。例如,应用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的 Web 页面,则是信息检索(information retrieval)畛域的工作。尽管这些工作是重要的,可能波及应用简单的算法和数据结构,然而它们次要依赖传统的计算机科学技术和数据的显著特色来创立索引构造,从而无效地组织和检索信息。尽管如此,数据挖掘技术也已用来加强信息检索零碎的能力。
数据挖掘的步骤会随不同畛域的利用而有所变动,每一种数据挖掘技术也会有各自的个性和应用步骤,针对不同问题和需要所制订的数据挖掘过程也会存在差别。此外,数据的残缺水平、业余人员反对的水平等都会对建设数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同畛域中的使用、布局,以及流程的差异性,即便同一产业,也会因为剖析技术和专业知识的涉入水平不同而不同,因而对于数据挖掘过程的系统化、标准化就显得分外重要。如此一来,不仅能够较容易地跨畛域利用,也能够联合不同的专业知识,施展数据挖掘的真正精力。
1、了解数据和数据的起源(understanding)
2、获取相干常识与技术(acquisition)
3、整合与检查数据(integration and checking)
4、去除谬误或不统一的数据(data cleaning)
5、建设模型和假如(model and hypothesis development)
6、理论数据挖掘工作(data mining)
7、测试和验证开掘后果(testing and verification)
8、解释和利用(interpretation and use)
由上述步骤可看出,数据挖掘关涉了大量的筹备工作与布局工作,事实上许多专家都认为整套数据挖掘的过程中,有 80% 的工夫和精力是破费在数据预处理阶段,其中包含数据的污染、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的剖析之前,还有许多筹备工作要实现。