数据挖掘的流程与方法
1. 任务:
2. 方法:
3. 步骤:
1. 任务:
- 关联分析
- 聚类分析
- 分类分析
- 异常分析
- 特异组群分析
- 演变分析
2. 方法:
- 统计
- 在线处理分析
- 情报检索
-
机器学习
-
分类
- 实际应用: 应用分类 / 趋势预测 / 推荐关联类商品
-
回归分析
- 实际应用: 预测销售趋势
-
聚类
- 实际应用: 分类
-
关联规则
- 包括两个阶段: 从海量数据中找到高频项目组 / 产生关联规则
- 实际应用: 预测客户需求
-
Web 数据挖掘
- 常用算法: PageRank 算法 /HITS 算法 /LOGSOM 算法
- 问题: 用户分类 / 用户页面停留时间 / 内容时效性 / 页面链入链出 /
-
- 专家系统
- 模式识别
-
神经网络方法
-
神经网络模型的种类:
- 用于分类预测和模式识别的前馈式: 函数型网络 / 感知机
- 用于联想记忆和优化算法的反馈式: 离散模型 / 连续模型
- 用于聚类的自组织映射: ART 模型
-
3. 步骤:
-
数据准备
-
数据预处理:
- 理解数据和数据的来源
- 获取相关知识与技术
-
数据的净化
- 去除错误或不一定的数据
- 数据格式转换
-
变量整合
- 整合与检查数据
- 数据表的链接
-
-
规律寻找 - 数据挖掘
- 建立模型和假设
- 实际数据挖掘工作
- 测试和验证挖掘结果
-
规律表示 - 结果表达和解释
- 解释和应用