关于数据挖掘:思迈特软件Smartbi数据挖掘与数据仓库的一些基本概念

44次阅读

共计 1540 个字符,预计需要花费 4 分钟才能阅读完成。

OLAP:联机剖析解决

OLAP 是 E.F.Codd 于 1993 年提出的。
OLAP 是一种软件技术,他使剖析人员能够迅速、统一、交互地从各个方面察看信息,以达到深刻了解数据的目标,这些信息是从原始数据间接转换过去的,他们以用户 easy 了解的形式反映企业的真实情况。
OLAP 大部分策略都是将关系型的或一般的数据进行多维数据存贮,以便于进行剖析,从而达到联机剖析解决的目标。这样的多维 DB 也被看作一个超立方体,沿着各个维方向存贮数据,它批准用户沿事物的轴线不便地剖析数据,与支流业务型用户相干的剖析模式个别有切片和切块以及下钻、开掘等操作。

DataMart:数据集市

为了特定的利用目标或利用范畴,而从数据仓库中独立进去的一部分数据,也可称为部门数据或主题数据。在数据仓库的施行过程中往往可能从一个部门的数据集市着手,当前再用几个数据集市组成一个残缺的数据仓库。须要留神的就是再施行不同的数据集市时,同一含意的字段定义肯定要相容,这样再当前施行数据仓库时才不会造成大麻烦。

Data Mining:数据挖掘

与数据挖掘相似的有一个术语叫做”机器学习“,这两个术语在实质上的区别不大,如果在书店别离购买两本讲数据挖掘和机器学习的书籍,书中大部分内容都是相互反复的。具体来说,小的区别如下:

机器学习:更侧重于技术方面和各种算法,个别提到机器学习就会想到语音辨认,图像视频辨认,机器翻译,无人驾驶等等各种其余的模式识别,甚至于谷歌大脑等 AI,这些货色的一个共同点就是极其简单的算法,所以说机器学习的外围就是各种精妙的算法。

数据挖掘:更偏差于“数据”而非算法,而且包含了很多数据的后期解决,用爬虫爬取数据,而后做数据的荡涤,数据的整合,数据有效性检测,数据可视化 (画图) 等等,最初才是用一些统计的或者机器学习的算法来抽取某些有用的“常识”。后期数据处理的工作比拟多。

ETL

ETL 各自是“Extract”、“Transform”、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但咱们日常往往简称其为数据抽取。ETL 是 BI/DW(商务智能 / 数据仓库)的外围和灵魂,按照对立的规定集成并进步数据的价值,是负责结束数据从数据源向指标数据仓库转化的过程,是施行数据仓库的重要步骤。

MetaData:元数据

元数据是刻画叙述数据仓库内数据的构造和建设办法的数据。可将其按用处的不同分为两类,技术元数据和商业元数据。技术元数据是数据仓库的设计和管理人员用于开发和日常治理数据仓库是用的数据。蕴含:数据源信息;数据转换的刻画叙述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规定;源数据到目标数据的映射;用户訪问权限,数据备份历史记录,数据导入历史记录,信息颁布历史记录等。

商业元数据从商业业务的角度刻画叙述了数据仓库中的数据。包含:业务主题的刻画叙述,包含的数据、查问、报表;

元数据为拜访数据仓库提供了一个信息文件夹(informationdirectory),这个文件夹全面刻画叙述了数据仓库中都有什么数据、这些数据怎么失去的、和怎么訪问这些数据。是数据仓库执行和保护的核心,数据仓库 server 利用他来存贮和更新数据,用户通过他来理解和訪问数据。

以上是思迈特软件 Smartbi 的分享,更多行业干货可关注咱们下一期的分享。思迈特软件 Smartbi 是出名国产 BI 品牌, 专一于商业智能 BI 与大数据 BI 剖析平台软件产业的研发及服务。通过多年继续自主研发,凝聚大量商业智能最佳实践经验,整合了各行业的数据分析和决策反对的性能需要。满足最终用户在企业级报表、数据可视化剖析、自助摸索剖析、数据挖掘建模、AI 智能剖析等大数据分析需要。

现个人版提供全模块长期收费应用,有趣味的小伙伴可登陆官网收费试用~

正文完
 0