Chp1
DM, Data Mining
- 为什么需要
Data Mining
信息技术的发展,计算机 — 存储和处理信息,网络 — 传播信息,物联网 — 收集信息,移动互联网 — 更加便捷地收集和传播信息
问题:数据总量爆炸式增加,如何从中提取真正有价值的信息
产生了新的领域 (DM)
- 什么是 DM
Data Mining, 数据挖掘
Knowledge Discovery, 知识发现
Machine Learning, 机器学习
Knowledge Discovery in Database, KDD
- 理解 DM
KDD, 从数据库获取数据 — 数据清洗 — 放入数据仓库 (warehouse)— 选出可能相关的感兴趣的信息 — 数据挖掘 — 评估 — 知识
BI, Business Intelligence, 商业智能
ML, 机器学习
-
从 4 个不同的角度理解 DM
- 待挖掘数据的种类: 文本,图像,视频,音频,…
- 挖掘方法: 统计学,机器学习,可视化,…
- 挖掘出的知识: 特征,类别,趋势,区别,关联,…
- 应用领域: 互联网,销售,银行,股票,生物,…
- DM 和 ML 的区别
DM: 发现规律,填补单个空缺
ML: 预测一整行
- DM 的历史
略
- DM 面临的主要挑战
用户交互
效率和可扩展性
数据类型的多样性
挖掘方法和技术
社会问题
Big Data, 大数据
- 定义: 4V
Volume, 数据体量巨大,PB 级别
Velocity, 要求处理速度快,1 秒定律,可从各种类型的数据中快速获得高价值的信息
Variety, 数据类型繁多
Value, 只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报
- 应用
Google Flu Trends Prediction
Promotion of pregnant women products in Target supermarket