乐趣区

关于机器学习:2022-年-5-篇与降维方法的有关的论文推荐

1、Dimension Reduction for Spatially Correlated Data: Spatial Predictor Envelope

Paul May, Hossein Moradi Rekabdarkolaee

降维是剖析高维数据的重要工具。Spatial Predictor Envelope 是一种回归的降维办法,它假如预测变量的某些线性组合对回归产生的影响很小。与传统的最大似然和最小二乘预计相比,该办法能够显著提高效率和预测准确性。尽管目前的工作曾经针对独立数据开发和钻研了预测包络,但还没有呈现将预测包络适应于空间数据的工作。这篇论文提出了 spatial predictor envelope (SPE),并且导出了 SPE 的最大似然预计,以及给定某些假如的预计的渐近散布,表明 SPE 预计在渐近上比原始空间模型的预计更无效。还通过一些模仿钻研剖析阐明了所提出模型的有效性。

2、Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra

Konstantin T. Matchev, Katia Matcheva, Alexander Roman

Transit spectroscopy 是解码系外行星大气化学成分的无力工具。这篇论文专一于剖析来自外行星的光谱数据的无监督技术,并展现了以下办法:

  1. 清理和验证数据,
  2. 基于汇总统计(地位和可变性的预计)的初始探索性数据分析,
  3. 摸索和量化数据中现有的相关性,
  4. 预处理和线性变换数据到它的次要成分,
  5. 降维和流形学习,
  6. 聚类和异样检测,
  7. 数据的可视化和解释。

为了阐明所提出的无监督办法,论文应用了一个驰名的合成传输光谱公共基准数据集。表明光谱数据中存在高度相关性,须要适当的低维示意。论文摸索了许多不同的降维技术,并在汇总统计、主成分等方面确定了几种适合的抉择。在主成分根底上发现了乏味的构造,即与底层大气的不同化学体系绝对应的明确定义的分支。这些分支能够胜利地通过 K -means 聚类算法在齐全无监督的形式进行还原。论文倡议对光谱数据的前三个次要成分进行三维示意,这样能够揭示数据中的现有构造,并疾速表征行星的化学级别

3、Statistical Treatment, Fourier and Modal Decomposition

Miguel Alfonso Mendez

这是 VKI 讲座系列“Fundamentals and Recent Advances in Particle Image Velocimetry and Lagrangian Particle Tracking”中“Statistical Treatment, Fourier and Modal Decomposition”的讲义。该课程于 2021 年 11 月 15 日至 11 月 18 日在 von Karman 流体动力学研究所举办。本次讲座提供了通过图像测速获取的数据处理的导览。这个讲义并不是对该畛域的详尽形容,但它自身就一门残缺的课程,并且提供一个能够入手实际操作的指引。从根本的统计解决开始,简要回顾频率和模态剖析,并以更高级的钻研主题完结,例如多尺度模态合成和非线性降维。所涵盖的资料无望推动老手进入该主题,同时放弃经验丰富的从业者的趣味。与本讲座相干的所有代码都在 github 上公开了。

4、SLISEMAP: Explainable Dimensionality Reduction

Anton Björklund, Jarmo Mäkelä, Kai Puolamäki

现有的黑盒监督学习模型的解释办法通常是通过构建部分模型来解释模型对于特定数据项的行为。尽管能够进行全局解释,但对于简单模型的解释的保真度较低。以前对于可解释模型的钻研大多集中在分类问题上,对回归的关注较少。论文提出了一种新的流形可视化办法 SLISEMAP,该办法能够同时为所有数据项找到部分解释,并构建模型空间的二维可视化,将同一模型解释的数据项进行投影。作者还提供了该办法的开源实现(PyTorch)。SLISEMAP 既实用于分类模型也实用于回归模型。将 SLISEMAP 办法与最风行的降维办法和一些部分解释办法进行了比拟。论文中提供了问题的数学推导,并表明 SLISEMAP 提供了疾速而稳固的可视化,可用于解释和了解黑盒回归和分类模型

5、A comprehensive survey on computational learning methods for analysis of gene expression data in genomics

Nikita Bhandari, Rahee Walambe, Ketan Kotecha, Satyajeet Khare

包含机器学习在内的计算分析方法在基因组学和医学畛域具备重大影响。微阵列技术和 RNA 测序等高通量基因表白分析方法会产生大量数据。传统上都是应用统计的办法进行基因表白数据的比拟剖析。然而对特色基因或样本察看的分类和发现进行更简单的剖析就须要简单的计算方法。在这篇综述中,作者整顿了了用于剖析表白微阵列数据的各种统计和计算工具。只管这些办法是在表白微阵列数据的背景下探讨的,但它们也可用于剖析 RNA 测序或定量蛋白质组学数据集。论文中具体探讨了缺失值(基因表白)插补、特色基因缩放、抉择和提取特色以进行降维和表白数据的学习和剖析的办法。在论文的最初最初,详细描述了学习和分析方法,包含类比拟、类预测和类发现以及它们的评估参数。这篇综述形容了微阵列基因表白数据的生成过程以及上述技术的长处和局限性,通过论文正 i 的这些列表,读者能够依据数据类型和预期后果抉择适合的办法。

援用:

  1. Dimension Reduction for Spatially Correlated Data: Spatial Predictor Envelope https://arxiv.org/pdf/2201.01…
  2. Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet Transmission Spectra https://arxiv.org/pdf/2201.02…
  3. Statistical Treatment, Fourier and Modal Decomposition https://arxiv.org/pdf/2201.03…
  4. SLISEMAP: Explainable Dimensionality Reduction https://arxiv.org/pdf/2201.04…
  5. A comprehensive survey on computational learning methods for analysis of gene expression data in genomics https://arxiv.org/pdf/2202.02…

https://www.overfit.cn/post/dbd558cbc4ff4acbb27d81267ed4084b

作者:Monodeep

退出移动版