关于数据挖掘:关河因果如何实现从关联规则到因果分析

2次阅读

共计 1398 个字符,预计需要花费 4 分钟才能阅读完成。

1、关联剖析与因果剖析

大数据背景下,因果剖析在智能决策中的重要性逐渐浮现,人们开始尝试用人工智能对事件进行因果剖析。以后的分析方法,大部分停留在关联剖析的阶段,关联剖析可能发现大数据项集之间的相关性、以及两个或多个变量取值的法则,其开掘的关联规定可能为因果剖析提供根据。但关联关系不等于因果关系,或者说关联是因果的必要不充分条件。如何基于关联去寻找因果,是以后重中之重的钻研方向。

想寻求怎么的因果关系,首先要明确因果关系是一个事件(“因”)和第二个事件(“果”)之间的作用关系,其中起因对后果负局部责任,而后果局部取决于起因。

关河因果零碎将机器学习融入逻辑规定框,通过自主翻新的图关联规定(GAR)与工夫关联规定(TACOs)发现算法,进行数据因果剖析。以电厂场景为例,零碎综合各类特色(例如交易工夫、节假日、节令、品类、商品属性、地区等),从全量消费者历史消费行为数据中,主动发现买家消费行为模式和商品之间的潜在关联,并通过时序信息,晋升因果预测的准确度。

2、“关河因果”与因果剖析

关河因果剖析零碎是以“因果剖析”为外围的数据分析系统。目前大多数的因果剖析都是通过统计实践进行解决数据,通过机器学习建设分析模型。而关河因果基于以后因果剖析畛域的几大痛点问题,在系统核心技术上实现冲破。

冲破 1:解决机器学习“黑盒”不可解释问题

尽管咱们能够通过机器学习模型来预测后果,然而咱们不分明预测的过程。机器学习善于学习输出数据和输入预测之间的分割,但因其过程不可解释,所以难以对因果关系或环境变动进行推理。因果剖析不同于关联剖析,咱们不仅须要判断 A 事件与 B 事件的相关性,还须要判断 A 对 B 是否存在因果影响,所以可解释性成为因果剖析中重要的一环。关河因果通过将机器学习融入逻辑规定框架,主动发现可解释的规定,为决策提供无力撑持。

冲破 2:用图数据处理简单关联关系问题

现有的关联性剖析工具都是基于关系型数据进行剖析,后果通常出现为下图的表达式:

这些表达式在大部分场景中并不能清晰的形容规定,因此更难去进行深一步的因果剖析。同时在数据规模越来越大、数据结构越来越简单的大数据时代,传统的关系型数据暴露出了建模缺点、程度伸缩等诸多问题,因而具备更弱小表达力的图构造下的数据开始被大量畛域用于存储、解决、剖析数据。图(Graph)将信息中的实体,以及实体之间的关系,别离形象表白成顶点以及顶点间的边这样的构造数据。图构造能够更好地表白数据之间的关联性,罕用于开掘人、物和实体间潜在的分割。

关河因果基于图关联规定(GAR)实践,对大规模图数据进行关联关系挖掘,且它的图数据在点(实体)、边(实体关系)的根底上减少了“属性”维度,大幅晋升数据分析的深度,为因果剖析的“归因”提供了数据结构根底。深层次、高精准,可解释的关联规定能力辅助数据分析人员进行正确的、无效的、可解释的因果剖析。

冲破 3:关联规定中“时序”的缺失

以后的机器学习办法偏向于适度拟合数据。事实上,他们试图完满地理解过来,而不是发现随着工夫的推移将持续存在的实在 / 因果关系。

关河因果中的 TACOs(TemporAl event prediCtiOn rules)是一类用于事件预测的工夫关联规定,TACOs 通过监测图的更新,捕获举荐中的工夫趣味和行为变动。算法躲避了穷尽的程度搜寻环节,大大缩短了传统的规定开掘过程,且反对发现大模式工夫关联规定,进行事件的因果预测。

正文完
 0