关于数据分析:没错在-Excel-中也能对海量数据进行明细钻取啦

7次阅读

共计 3585 个字符,预计需要花费 9 分钟才能阅读完成。

今年年初,Kylin 社区公布了 MDX for Kylin,越来越多小伙伴开始在多个场景应用。本文将率领大家看看 MDX for Kylin 如何疾速玩转海量数据的明细钻取!欢送大家拜访最新用户手册。

一、场景介绍

数据分析师在进行数据分析过程中,察看到与预期不符的度量值的时候,可能会进一步进行下钻查看相干明细,探索与预期不符的起因,从而实现从“发现景象”到“找到起因”的过程。

如下图,某公司的财务人员想查看以后所有订单中局部国家地区消费者的营收状况,能够通过 Excel 疾速实现目标。

图. 应用 Excel 对小规模数据集进行明细下钻

财务人员在取得了最终的订单业绩汇总后,可能会进一步检索业绩的具体数据。比方,财务发现以后“JORDAN”地区的消费者整体业绩不合乎预期,能够通过双击“JORDAN”地区的用户业绩数值,失去对于“JORDAN”地区的消费者数据,或者能够通过对该地区生产用户的定向营销以促成销售业绩。

从下面的演示咱们能看到,面对大量的数据,应用 Excel 即可满足需要。然而如果数据量达到肯定规模,比方到百万千万级别,Excel 就变得十分迟缓,甚至无奈解决。这时候用户又该如何不便地实现明细数据下钻呢?

二、用 Excel 轻松玩转海量数据

为了能让 Excel 实现海量数据的剖析,玩转明细钻取,咱们须要将大数据工具与 Excel 连贯应用。

MDX for Kylin 是由 Kyligence 奉献、应用 Apache Kylin 作为数据源的 MDX 查问引擎。MDX for Kylin 的应用体验靠近 Microsoft SSAS,能够集成多种数据分析工具,包含了 Microsoft Excel 等,能够为大数据分析场景下提供更极致的体验。

MDX for Kylin 底层引擎 Kylin 可响应超大数据规模的指标查问,下钻的明细如果是超大的数据量也不在话下。

请追随本文的介绍,来看看下 MDX for Kylin 如何疾速玩转海量数据的明细钻取吧。

以下假如用户曾经装置好最新 Apache Kylin 4.0.2 版本。对于 Apache Kylin 更多的装置部署详情,请参考 Apache Kylin 官网文档。

「筹备工作」

  • 下载并装置 MDX for Kylin
  1. 拜访链接

https://s3.cn-north-1.amazona…,下载 MDX for Kylin。

  1. 解压 MDX for Kylin 安装包
$  tar -xf mdx-for-kylin-1.0.0-beta.tar.gz
  1. 加密元数据库拜访明码

加密 MDX for Kylin 元数据库拜访明码,并记录返回的字符。

$ cd $MDX_HOME 

$ bin/mdx.sh encrypt '< 填入 MDX for Kylin 元数据数据库明码 >'
  1. 批改配置文件
 配置 insight.properties 参数。$ vi $MDX_HOME/conf/insight.properties

 

insight.kylin.host= 须要连贯的 Kylin 服务器的 IP 地址或 Hostname

insight.kylin.port= 须要连贯的 Kylin 服务器的端口号

insight.database.type: 须要连贯的 MDX for Kylin 应用的数据库的类型,默认为 mysql, 如果应用 PostgreSQL 作为元数据库,须要更改类型为 postgresql

insight.database.ip= 须要连贯的 MDX for Kylin 应用的数据库服务器的 IP 地址或 Hostname

insight.database.port= 须要连贯的 MDX for Kylin 应用的数据库的端口号

insight.database.name= 须要连贯的 MDX for Kylin 应用的数据库的名称

insight.database.username= 须要连贯 MDX for Kylin 应用的数据库的连贯用户名

insight.database.password= 须要填入通过上一步加密当前的 MDX for Kylin 应用的数据库连贯用户的明码 
  • 启动 MDX for Kylin
$ $MDX_HOME/bin/mdx.sh start

对于 MDX for Kylin 更多的装置细节,请参考 MDX for Kylin 装置前置条件 和 MDX for Kylin 装置流程。

  • Kylin 侧配置适配
  1. 在 Kylin 侧须要关上查问下压以及跳过通过预计算索引答复明细查问的开关。
$ vi $KYLIN_HOME/conf/kylin.properties

 

...

# For 4.x

kylin.query.pushdown.runner-class-name=org.apache.kylin.query.pushdown.PushDownRunnerSparkImpl

kylin.query.enable-no-aggregate-query=true
  1. 重启 Kylin

$ KYLIN_HOME/bin/kylin.sh restart

  • 在 MDX for Kylin 中创立预期要剖析的数据集
  1. 登录 MDX for Kylin

图. 登录 MDX for Kylin

  1. 创立预期剖析的数据集

这里咱们用 SSB 数据集 Star Schema Benchmark

(https://www.cs.umb.edu/~ponei…)作为示例。您也可应用 Kylin 已有的任意数据模型。

在 Kylin 侧构建实现预期要剖析的度量列之后,可间接点击下一步,直到数据集创立实现即可。

图. 创立数据集

「Excel 数据源连贯 MDX for Kylin」

Excel 作为数据的剖析入口,能够通过配置 Analysis Services 连贯 MDX for Kylin 作为预期剖析的数据源,即可进行剖析。

  1. 关上 Microsoft Excel (for Windows)

图. 连贯 Excel 数据源

  1. 配置 MDX for Kylin 地址,请替换 IP_Adress 为 MDX For Kylin 部署机器的 IP 地址,用户名和明码应用 Kylin 的账号和明码。

图. 配置 Excel 与 MDX for Kylin 的连贯串

整体连贯流程示例如下:

图. Excel 连贯 MDX for Kylin

更多对于 Excel 连贯 MDX for Kylin 作为数据源细节,请参考 MDX for Kylin 与 Excel 的集成 https://kyligence.github.io/m…。

「明细下钻剖析」

所有筹备工作结束,接下来就能够进行明细钻取了。在文章结尾,咱们曾经发现了大量数据集的状况下存在局部不合乎预期的业绩明细。当初在 600w 数据量的状况下,也能够一样地去剖析不同国家之间的业绩。

图. 数据集总量

  • 拖拽剖析的维度和度量

剖析所有时间段内的不同国家的业绩支出。

图. 剖析相干度量列与维度列

  • “ 双击 ” 预期剖析的国家业绩进行明细钻取

用户能够通过“双击”预期剖析某一国家的业绩支出,进行明细钻取。例如,CHINA 是所有国家当中业绩支出排名最高的国家,那么能够通过钻取 CHINA 国家的业绩支出,查看相干明细。

图. 双击钻取明细

  • 查看钻取的明细数据

在明细数据过多的状况下,为了展现和查看的性能,Excel 默认会展现明细钻取的前 1000 行数据。

图. 查看明细

咱们能够通过批改 Excel 的连贯属性,钻取更多的行数,请留神过多的行数设置,可能存在肯定的性能问题。批改形式如下, “ 点击 ‘ 查问和连贯 ’ -> 右键连贯 ’ 属性 ’ -> 编辑 ‘ 要检索的最大记录数 '”。

图. 批改明细下钻默认最大记录数

三、总结

通过 MDX for Kylin,数据分析师能够轻松在 Excel 实现自助取数,并且能够对数据中感兴趣的局部进行自在的数据钻探,来开掘数据的价值。

相比分析师提需要,数据开发依据需要取数的传统流程,MDX for Kylin 在反对大数据的数据分析的同时,升高了沟通老本和人力老本,大大晋升了企业的工作效率和数据分析师的工作灵活性,能够为企业疾速定位业务倒退瓶颈,助力业务往正确的方向走得更远。

四、参考

对于 MDX for Kylin 的更多详情,请参考:

  1. MDX for Kylin 操作手册:https://kyligence.github.io/m…
  2. 其余 Kylin 版本与 MDX for Kylin 兼容: https://github.com/Kyligence/…
  3. Apache Kylin 4.x 查问下压: https://kylin.apache.org/cn/d…
  4. Apache Kylin 3.x 查问下压:https://kylin.apache.org/cn/d…

感兴趣的同学,欢送查看 MDX for Kylin 的明细下钻相干代码实现:

https://github.com/Kyligence/…

五、Kylin 5 最新动静

对于大家期待的 Kylin 5.0,社区将通过反对明细索引来减速非聚合查问(明细查问),明细索引通过物化 Join 和 shardBy 两个次要形式来减速明细查问。对于还不理解 Kylin 5.0 新个性的小伙伴,欢送观看 ApacheCon Asia 回放视频来理解 Kylin 5.0 社区开发路线。

正文完
 0