关于数据挖掘:关河因果如何实现从关联规则到因果分析

78次阅读

共计 1398 个字符，预计需要花费 4 分钟才能阅读完成。

1、关联剖析与因果剖析

大数据背景下，因果剖析在智能决策中的重要性逐渐浮现，人们开始尝试用人工智能对事件进行因果剖析。以后的分析方法，大部分停留在关联剖析的阶段，关联剖析可能发现大数据项集之间的相关性、以及两个或多个变量取值的法则，其开掘的关联规定可能为因果剖析提供根据。但关联关系不等于因果关系，或者说关联是因果的必要不充分条件。如何基于关联去寻找因果，是以后重中之重的钻研方向。

想寻求怎么的因果关系，首先要明确因果关系是一个事件（“因”）和第二个事件（“果”）之间的作用关系，其中起因对后果负局部责任，而后果局部取决于起因。

关河因果零碎将机器学习融入逻辑规定框，通过自主翻新的图关联规定（GAR）与工夫关联规定（TACOs）发现算法，进行数据因果剖析。以电厂场景为例，零碎综合各类特色（例如交易工夫、节假日、节令、品类、商品属性、地区等），从全量消费者历史消费行为数据中，主动发现买家消费行为模式和商品之间的潜在关联，并通过时序信息，晋升因果预测的准确度。

2、“关河因果”与因果剖析

关河因果剖析零碎是以“因果剖析”为外围的数据分析系统。目前大多数的因果剖析都是通过统计实践进行解决数据，通过机器学习建设分析模型。而关河因果基于以后因果剖析畛域的几大痛点问题，在系统核心技术上实现冲破。

冲破 1：解决机器学习“黑盒”不可解释问题

尽管咱们能够通过机器学习模型来预测后果，然而咱们不分明预测的过程。机器学习善于学习输出数据和输入预测之间的分割，但因其过程不可解释，所以难以对因果关系或环境变动进行推理。因果剖析不同于关联剖析，咱们不仅须要判断 A 事件与 B 事件的相关性，还须要判断 A 对 B 是否存在因果影响，所以可解释性成为因果剖析中重要的一环。关河因果通过将机器学习融入逻辑规定框架，主动发现可解释的规定，为决策提供无力撑持。

冲破 2：用图数据处理简单关联关系问题

现有的关联性剖析工具都是基于关系型数据进行剖析，后果通常出现为下图的表达式：

这些表达式在大部分场景中并不能清晰的形容规定，因此更难去进行深一步的因果剖析。同时在数据规模越来越大、数据结构越来越简单的大数据时代，传统的关系型数据暴露出了建模缺点、程度伸缩等诸多问题，因而具备更弱小表达力的图构造下的数据开始被大量畛域用于存储、解决、剖析数据。图（Graph）将信息中的实体，以及实体之间的关系，别离形象表白成顶点以及顶点间的边这样的构造数据。图构造能够更好地表白数据之间的关联性，罕用于开掘人、物和实体间潜在的分割。

关河因果基于图关联规定（GAR）实践，对大规模图数据进行关联关系挖掘，且它的图数据在点（实体）、边（实体关系）的根底上减少了“属性”维度，大幅晋升数据分析的深度，为因果剖析的“归因”提供了数据结构根底。深层次、高精准，可解释的关联规定能力辅助数据分析人员进行正确的、无效的、可解释的因果剖析。

冲破 3：关联规定中“时序”的缺失

以后的机器学习办法偏向于适度拟合数据。事实上，他们试图完满地理解过来，而不是发现随着工夫的推移将持续存在的实在 / 因果关系。

关河因果中的 TACOs（TemporAl event prediCtiOn rules）是一类用于事件预测的工夫关联规定，TACOs 通过监测图的更新，捕获举荐中的工夫趣味和行为变动。算法躲避了穷尽的程度搜寻环节，大大缩短了传统的规定开掘过程，且反对发现大模式工夫关联规定，进行事件的因果预测。

正文完