关于数据挖掘:一文带你看懂为什么Smartbi-V10要打造全新的数据模型

首先，要搞清楚什么是“数据模型”？

事实世界中的事物要让计算机进行治理，必须通过“数据模型”对其进行形象、模仿，而后再寄存在数据库系统外面。

数据模型有不同的建模办法，最常见的就是“范式建模”。业务数据库、数据仓库通常都会采纳这种建模办法。

然而，面向数据分析的数据集市个别会采纳“多维建模”。

这也是源于日常数据分析的场景。

例如，一个企业在思考产品的销售状况时，通常从工夫、地区和产品的不同角度来深刻察看产品的订单数、销售金额、同环比增长。

从这个例子中，能够形象出两局部的内容：维度和度量。

维度有工夫、地区、产品，是察看数据的一种角度。

度量有订单数、销售金额、同环比增长，是数据聚合运算的后果。

这种以维度和度量来组织数据的办法，叫做“多维模型”，包含维度表和事实表。

维度表贮存维度的形容，信息比拟固定，且数据量小。

事实表贮存维度和度量，度量通常是数值类型，且记录数会一直减少。

数据集市是用来做数据分析的，采纳“多维建模”的办法，再适合不过了。

一、数据模型的多维建模

尽管数据集市曾经做好多维建模，然而须要专门的数据人员来设计，对于整个BI零碎的开发来说，敏捷性和灵活性都不够。

如果BI产品把“多维建模”的能力也整合进来，BI技术人员能够依照需要随时进行可视化建模，效率将失去极大晋升。同时，通过产品构建的多维模型，能够和下层利用做更好的协同，产品性能将失去全面加强。

这就是Smartbi V10实现多维建模的初衷。

Smartbi V10的多维建模反对星型模型、雪花模型、星座模型等多种模型：

例如，一家批发企业要看全国商店的盈利明细，还有各城市“每平盈利”排行榜以及散布。

在Smartbi V10数据模型中，把相干的事实表（销售、商店）、维度表（产品类别、产品信息）用鼠标拖进来，并依据表之间的关系（多对一、一对多、内连贯、外连贯）做好关联：

在“度量”区域通过简略操作生成各种指标：

而后在“自助仪表盘”外面基于这个数据模型，即可疾速生成以下仪表盘：

二、数据模型的多种查问类型

数据模型须要解决一个要害的问题：源数据怎么取？

数据的起源多种多样，在Smartbi V10之前版本中也存在多种数据集，包含SQL、存储过程、即席查问、Excel文件和JavaScript脚本等。而在Smartbi V10中，只有“数据模型”一个入口，能够查问各种类型的数据，并且反对跨库数据整合：

查问的多样化，能够让数据模型的构建更加灵便。

例如，要统计银行各营业部，近5天购买金融产品金额超过1万的客户数，这里波及到二次汇总的问题。在Smartbi V10数据模型外面，用“即席查问”把满足条件的客户先查问进去：

而后对查问进去的后果（事实表）创立“客户数”的度量即可：

多种查问类型也能够联结应用。例如，一名业务员须要剖析销售数据，然而无关数据都放在不同的中央，局部数据是放在个人电脑的Excel上：

这个时候怎么办呢？上面做了演示：

三、弱小的计算能力

Smartbi V10数据模型具备弱小的计算能力，体现在两个方面：ETL数据处理和多维计算。

在建模过程中，交融ETL的弱小数据处理能力对源数据进行预处理，包含筛选、去重、拆分列等。数据模型外面的表、SQL、存储过程、即席查问等都能够间接转ETL高级查问，从而实现简单数据场景的解决，并且解决大表关联的问题，防止零碎解体。

例如，订单表里“订单编号”字段存在反复的值，咱们能够在查问订单表的ETL流程中，利用“去除反复值”的性能节点进行去重，也能够拆分字段：

Smartbi V10数据模型同时具备多维简单计算能力，反对自定义成员和自定义命名集。

自定义成员指基于原有维度成员的根底上创立新的维度成员，成员能够是单个对象，也能够是成员的汇合。

例如要新建一个“一线城市”的维度，在“新建计算成员”页面下把对应的城市拖进来即可：

而后在下层利用就能够间接应用“一线城市”这个维度了：

自定义命名集能够蕴含固定的维成员集，也能够蕴含能解析为汇合的表达式。

例如要新建一个“销量排名前3的城市”，在“新建命名集”页面下，抉择零碎提供的MDX函数和对应的维度和度量，后续在利用外面就能够间接应用了：

四、灵便的数据加载

Smartbi V10数据模型提供“直连”和“抽取”两种数据加载模式。

当企业出于数据安全思考，不容许数据加载到其余零碎；或者数据频繁变动，又要求看到最新的数据；或者数据量大且客户自身的存储性能很高时，适宜用直连模式。

导入文件、脚本查问、ETL高级查问、存储过程查问必须用抽取模式。如果原始数据性能慢，心愿晋升查问速度；或者数据变动频率不高的状况下，也适宜用抽取模式。

此外，Smartbi V10数据模型也反对“按次抽取”。例如须要实时数据，但又无奈应用直连形式（如模型含存储过程）；或者模型中的一部分数据和用户无关（如权限），同时又不能应用直连形式。这些状况下，Smartbi后盾的缓存库按session 、查问的参数组合进行抽取存储，当环境发生变化时就从新抽取。

正如一部汽车的能源取决于引擎，Smartbi V10通过打造全新的数据模型，封装更多的操作并进行优化，从“引擎”上提高效率，为下层利用（自助仪表盘、电子表格等）输入更磅礴的“能源”，全面晋升产品的功能性和便捷性。

关于数据挖掘:一文带你看懂为什么Smartbi-V10要打造全新的数据模型

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:一文带你看懂为什么Smartbi-V10要打造全新的数据模型

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复