关于kylin:通往数据分析平民化的成功之路

明天，每家公司都是数据公司，人人都是数据专家。不管您是信贷经理、会计师、销售、人事经理还是工程师，这都不影响您进行数据处理并从中洞察先机。正是因而，平民数据科学家（CDS）这一概念应运而生，各行业的从业者们正借助数据和分析模型来获取与其业余畛域相干的洞察力。绝对平民数据科学家（CDS），咱们更偏向应用平民数据分析师（CDA）这种说法，因为在与数据的交互中，常识工作者所融入其中的不仅是迷信，还有艺术。

依据 Gartner 的定义，“平民数据科学家是创立或生成模型的人，这些模型使用了先进的诊断剖析、预测或阐明性能。不过这些人的本职工作却是在统计和剖析畛域之外。”[Idoine，2018 年]

那么，平民数据分析师们如何能从数据和剖析中获取决策洞察？又是哪些工具和个性赋能了他们？

从根本上说，胜利的平民数据分析师能够通过三大要害因素获取洞察并进步业务绩效：

高质量的业务数据
持重的自助剖析平台
弱小的数据和剖析治理流程

这三大要害因素有心愿满足当初日益简单的数据分析需要，赋能业务用户，使其能依据本身需要获取要害答案。尽管每家公司或组织中平民数据分析师们的能力多样，但这并不障碍咱们找出一些通用的要害因素或解决方案。

关注数据自身

首先，如何解决剖析中的数据品质问题？高质量数据，是指咱们须要有价值的、而非更多的数据来获取洞察。在数据分析畛域，咱们次要从以下三个方面来判断数据是否有价值：

正确的维度
数据分析是要通过已知数据找出对已知问题的答案和未知问题的事后洞察。洞察的获取则取决于反馈（成果）和解释（起因）变量，也被称为特色或维度。维度的次要作用是限定诸如价格、数量和周期等业务相干度量的利用场景。

正确的数据结构
在企业通过业务收集的数据中，高达 80% 是非结构化数据，比方文档、视频、音频、图像等数据。大家都晓得剖析算法须要数据模型来对数据进行剖析和解决，但因为这些非结构化数据中并没有预约义数据模型，企业难以充分利用这些数据和施展它们的价值。

较少的变动
业务流程中不可避免的会存在一些变动，这种变动同样会反映在数据中。数据的变动使剖析算法很难做出及时和精确的预测。

自助式剖析平台
聊完数据品质的重要性，咱们再来看看如何通过自助剖析平台赋能平民数据分析师。如能领有自助剖析平台，业务人员将只须要极少的 IT 反对就能执行查问并获取后果。在平民数据分析师们的剖析工作中，一个持重的自助剖析平台应提供如下外围性能：

数据加载
剖析平台的价值取决于它的可用数据。因而，自助剖析平台应能轻松对接现有数据源，无论是规范数据库（如数据仓库）还是记录零碎（如 ERP 或 CRM）。不管数据源是部署在本地、云上还是混合云中，自助剖析平台都能轻松治理数据索引（以实现高效搜寻）、执行数据加载和刷新。

数据品质和及时性
数据的品质和及时性决定了洞察的无效和准确性。如存在积重难返的数据孤岛，这二者都很难保障。如果没有良好的数据品质，洞察和论断的真实性将无奈保障。同样，如果没有足够及时的数据，那咱们极可能会基于过来的数据对明天进行假如。

性能、规模及并发性
如果响应工夫很长，或仪表盘处于长期无响应状态，那自助剖析平台将无奈应用。真正的平民数据分析师，更心愿能通过数据来跟踪和证实或反驳他们对所剖析世界的了解和判断。他们应该能疾速对数据进行摸索并失去想要的数据。

数据安全
自助剖析平台并不代表安全性的升高或齐全没有安全性；平安治理是自助剖析和平民数据分析师胜利的先决条件。自助剖析平台应反对通过 IDM（身份治理）和 RBAC（基于角色的访问控制）对平民数据分析师进行身份验证，以便管制和治理对敏感数据的拜访，如 PCI DSS（支付卡行业数据安全规范）和 PII（个人身份信息）。

语义模型
剖析论断的得出依赖于从各个系统中获取的数据。思考到大家对数据元素的定义各不相同，咱们迫切需要能通过语义或其余形式来示意数据的含意。语义模型形容了特定数据值之间的关系 [Luisi, 2014]。因而，自助剖析平台应该能为平民数据分析师提供对立的语义模型，从而建设一个繁多的实在起源（SoT），以便获取精确、及时的洞察。

剖析算法库
自助剖析平台中应蕴含大量经工夫验证的剖析算法库，包含能拜访如 TensorFlow、Keras、scikit-learn 等开源库。这样平民数据分析师将能轻松重用现有剖析算法，而非从头构建本人的解决方案。

数据治理
最初，没有正确的数据治理，同样无奈赋能平民数据分析师。平民数据分析师无疑很弱小，但对他们的赋能同样须要一个弱小的治理框架来治理。治理框架应能：

明确数据所有权
角色评估
数据素养培训
优化查问
预计算后果
标记未应用的报告和仪表板
监控零碎性能
其余监管和数据管理流动

那么如何将高质量的业务数据、持重的自助剖析平台及弱小的数据和剖析治理流程组合在一起，胜利赋能平民数据分析师呢？
Kyligence 以 Apache Kylin 为外围，通过平安的集成来自各数据源的数据为平民数据分析师提供了一个整体的剖析平台，为其创立一个整合的、有价值的语义数据库，使其能获取近乎实时的弱小洞察力。通过自动化数据发现、数据集成和提供低代码 / 无代码的剖析库，Kyligence 为平民数据分析师带来了无缝及平安的数据洞察，进一步解放他们的生产力。

Kyligence 和数据分析平民化

Kyligence 始终在提倡「数据分析平民化」这一理念。在大数据分析畛域，Kyligence 所打造的自助剖析平台取得了宽泛的利用，播种了来自金融、批发、制作等行业的客户，接下来咱们将简要介绍 Kyligence 的劣势：

数据源
Kyligence 反对 Hadoop、RDBMS、数据仓库和数据湖等当先的数据平台，简化数据接入并实现多云部署。

数据品质
Kyligence 通过治理来自不同数据平台及 Kafka 等实时流数据平台的数据，产出高质量数据，从而能构建反对批数据源和实时数据源的混合分析模型。借助对立语义层，平民数据分析师能够取得规范的维度和度量定义，实现繁多数据源。

高性能、高并发、大规模
Apache Kylin（分布式 OLAP）和 ClickHouse（MPP）的强强联手，更使得 Kyligence 在剖析查问、明细查问或各类长期查问中都有十分高性能的体现。即使是面对极大数据集，平民数据分析师也能疾速执行数据检索。

保障数据安全
Kyligence 可提供单元格级别的平安爱护，管制后端数据拜访，并使其对用户通明。除基于角色的访问控制外，Kylignece 还反对与 LDAP 和 Azure Active Directory 等用户管理系统集成以确保合作平安。

对立语义模型
Kyligence 弱小的对立语义层性能，可为不同的 BI 团队打造对立的语义模型。当数据源架构扭转时，Kyligence 中的数据模型会自适应演变，并让下层利用中的数据结构保持一致。

无缝集成 BI 工具，反对多种数据迷信语言
Kyligence 提供规范的 ANSI-SQL 和 XMLA/MDX 接口，可轻松与现有剖析工具（如 Tableau/Excel/PowerBI）集成，同时反对 Python 或 Scala 等数据迷信语言，帮忙用户轻松借助 TensorFlow、scikit-learn 等构建端到端的机器学习工作流。

主动简化数据治理流程
借助 Kyligence 语义层，每个数据模型都将会是一个受治理的数据集市，主动并简化数据治理流程，如审计和评级等。
审计：因为数据模型是用户应用的最小单元，管理员能够轻松跟踪每个模型的应用状况；
评级：Kyligence 管理员能够查看每个模型的大小、数据的使用率与存储空间之比，辨认最热数据模型，这些模型也正是企业最有价值的资产；
数据生命周期：轻松治理对数据模型的生命周期类操作，如创立、提取、刷新、合并等；
Kyligence 内置的 AI 加强引擎将提供更有价值的索引构建倡议、检测有效索引并倡议删除、从而升高存储及计算资源的老本。

结语
在当今以数字和数据为核心的经济中，借助剖析洞察数据并据此理智决策，将推动从数据到业务资产的转化。很遗憾，目前大多数的剖析我的项目都侧重于通过集中的数据迷信团队来提供业务洞察。从后果来看，超过 80% 的剖析我的项目没能实现业务的增益 [Miranda, 2018]。这不仅提早了对数据洞察的生产，还减少了将其转化为对应的业务决策的老本。

如果平民数据分析师能从数据和剖析中获取洞察，这将能极大缩短周期时间、节省成本并晋升公司或组织的客户服务能力，这才是对平民数据分析师赋能的将来。但如果心愿这些平民数据分析师们能胜利，那就要有一个像 Kyligence 这样能提供高质量的数据、弱小的治理流程且易于应用的自助剖析平台。

参考文章

Idoine, Carlie, “Citizen Data Scientists and Why They Matter”, https://blogs.gartner.com/car…, 2018
Luisi, James, “Pragmatic Enterprise Architecture”, Morgan Kaufmann, 2014
Miranda, Gloria Macías-Lizaso “Building an effective analytics organization”, https://www.mckinsey.com/indu…, 2018.
Southekal, Prashanth, “Analytics Best Practices”, Technics Publications, 2020

对于作者
Dr.Prashanth Southekal，DBP-Institute 数据分析和指标公司的治理负责人。Southekal 学生先后为 P&G、GE、Shell、Apple 和 SAP 等 75 多个组织和机构提供咨询服务。Southekal 学生还是《Data for Business Performance》和《Analytics Best Practices》两本书的作者，并常常为福布斯网站及 CFO University 撰写无关数据、剖析及机器学习方面的专题稿件。他在卡尔加里大学（加拿大卡尔加里）和 IE 商学院（西班牙马德里）负责数据分析课程的客座教授，目前在寰球曾经传授了超过 2,500 名学生。Southekal 学生领有法国里尔商学院的博士学位和美国凯洛格治理学院的 MBA 学位。

对于 Kyligence
Kyligence 由 Apache Kylin 开创团队创立，致力于打造下一代智能数据云平台，为企业实现自动化的数据服务和治理。基于机器学习和 AI 技术，Kyligence 从多云的数据存储中辨认和治理最有价值数据，并提供高性能、高并发的数据服务以撑持各种数据分析与利用，同时一直升高 TCO。Kyligence 已服务中国、美国及亚太的多个金融、制作、批发等客户，包含建设银行、浦发银行、招商银行、安全银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、YUM、Costa、UBS、Metlife、AppZen 等寰球知名企业和行业领导者。公司已通过 ISO9001，ISO27001 及 SOC2 Type1 等各项认证及审计，并在寰球范畴内领有泛滥生态合作伙伴。