关于机器学习:使用RobustPCA-进行时间序列的异常检测

5次阅读

共计 1850 个字符,预计需要花费 5 分钟才能阅读完成。

鲁棒主成分剖析 (Robust Principal Component Analysis, RobustPCA) 是一种将工夫序列矩阵合成为低秩重量和稠密重量的技术。这种合成可能辨认潜在的趋势,以及检测异样和异样值。在本中咱们将钻研 RobustPCA 的数学根底,介绍它与传统的 PCA 之间的区别,并提供可视化来更好地了解它在工夫序列预测和异样检测中的利用。

RobustPCA 的数学根底

RobustPCA 是经典主成分剖析 (PCA) 的扩大,它能够通过捕捉主成分来找到高维数据的低维示意。经典 PCA 对异样值敏感,在噪声存在时可能体现不佳。而 RobustPCA 通过将工夫序列矩阵合成为两个组件来解决这个问题: 捕捉潜在趋势的低秩组件和解释异样值的稠密组件。

在给定一个工夫序列矩阵 X, RobustPCA 合成可示意为:

 X = L + S

这里的,L 为低秩重量,S 为稠密重量。

RobustPCA 解决了以下优化问题来寻找 L 和 S:

这里的 ||L||* 示意 L 的核范数(即其奇怪值的和),||S||_1 示意 S 的 L1 范数(即其元素的绝对值的和),λ 是一个正则化参数,用于均衡低秩重量和稠密重量之间的衡量。

RobustPCA 与传统 PCA 的区别

RobustPCA 和传统的 PCA(Principal Component Analysis)都是用于矩阵合成的技术,但它们在解决数据中蕴含噪声和异样值时的体现有所不同。

传统 PCA 是一种线性变换技术,用于将高维数据集投影到低维子空间中,以便更好地了解和剖析数据。传统 PCA 假如数据中的每个观测值都遵从高斯分布,这意味着在存在异样值或噪声的状况下,传统 PCA 的性能会受到影响。

而 RobustPCA 在数据蕴含噪声和异样值时体现更好,因为它可能将数据合成为低秩和稠密成分。这使得 RobustPCA 在许多利用中比传统 PCA 更具备实用价值。例如,RobustPCA 能够用于在图像和视频中检测和移除噪声和异样值,而传统 PCA 则可能会将噪声和异样值谬误地归因于数据的根本构造。

另一个区别是,传统 PCA 是一个凸优化问题,能够通过求解特征值合成来间接求解,而 RobustPCA 是一个非凸优化问题,须要应用迭代算法(例如交替方向乘子法 ADMM)来求解。此外传统 PCA 通常对数据进行中心化解决,而 RobustPCA 能够解决未中心化的数据。

RobustPCA 应用示例

在 Python 中,robust_pca 包提供了一个易于应用的基于 ADMM 算法的 RobustPCA 实现。

上面是一个应用 robust_pca 包来合成工夫序列矩阵 X 的例子:

 import numpy as np
 from robust_pca import RobustPCA
 
 # Create a sample time series matrix X
 np.random.seed(42)
 X = np.random.randn(100, 10)
 
 # Perform RobustPCA decomposition
 rpca = RobustPCA(lam=0.1)
 L, S = rpca.fit_transform(X)

为了更好地了解 RobustPCA 合成,咱们能够可视化原始工夫序列矩阵 X、低秩重量 L 和稠密重量 s。这种可视化能够帮忙咱们评估 RobustPCA 在从异样值和噪声中拆散潜在趋势方面的有效性。

在下面的例子中,咱们能够看到低秩重量 L 捕捉了平滑趋势,而稠密重量 S 隔离了异样值和噪声。

RobustPCA 的利用

鲁棒主成分剖析能够利用于宽泛的工夫序列预测和异样检测工作,包含:

金融市场剖析:RobustPCA 可用于剖析高维金融工夫序列数据,如股票价格、交易量和经济指标。通过将数据合成为低秩和稠密的组件,咱们能够辨认趋势和异样,为投资决策和危险管理策略提供信息。

能源需求预测:RobustPCA 能够通过捕获数据中的潜在趋势和季节性来帮忙预测能源需求,同时思考极其天气事件或设施故障造成的异样值。

传感器数据分析: 在工业利用中,RobustPCA 可用于剖析传感器数据,检测可能表明设施故障或其余问题的异常情况。

总结

鲁棒主成分剖析 (Robust Principal Component Analysis, RobustPCA) 是一种将工夫序列矩阵合成为低秩重量和稠密重量的弱小技术。这种合成容许在存在噪声和异样值的状况下进行更精确的趋势预计和异样检测,在迷信和工程的各个领域中具备许多理论利用。

https://avoid.overfit.cn/post/0a8c32f16a284ceba20dee9cdf858ecb

作者:Naveen Kaushik

正文完
 0