关于机器学习:研究人员开发了可以减少大数据复杂性的新算法

无论何时进行科学实验，后果都会转化为数字，往往产生大量的数据集。为了缩小数据的大小，计算机程序员应用的算法能够找到和提取代表最显著统计个性的次要特色。然而许多这样的算法不能间接利用于海量数据。

德克萨斯州 A＆M 大学计算机科学与工程系的博士生 Reza Oftadeh 在该系的 Dylan Shell 博士的领导下，开发了一种实用于大型数据集的算法。它是一种有用的机器学习工具，因为它能够从最显着的地位到最不重要的地位提取并间接对其进行排序。

机器学习算法提取数据特色

Oftadeh 说: “有许多应用机器学习算法来提取这些特色的长期办法，然而咱们当初有了一个十分严格的实践证实，即咱们的模型能够同时从数据中找到并提取这些突出的特色，而这一过程只需一次算法即可实现。”

他们形容这项钻研的论文发表在2020年机器学习国内会议的会议记录上。

机器学习的一个子畛域波及组件剖析，即辨认和提取原始数据集的特色以帮忙升高其维数的问题。一旦辨认出特色，这些特色将被用来对数据进行标注样本，以便进一步剖析或执行其余机器学习工作，如依据这些特色进行分类、聚类、可视化和建模。

寻找或开发这些类型的算法的工作曾经继续了一个世纪，然而使这个时代不同凡响的是大数据的存在，大数据能够蕴含具备数万个属性的数以百万计的采样点。对于人类程序员来说，剖析这些宏大的数据集是一个非常复杂、耗时的过程，因而近年来人工神经网络曾经成为钻研的热点。

人工神经网络作为机器学习的次要工具之一，是用来模仿人脑如何剖析和解决信息的计算模型。它们通常由数十到数百万的人造神经元组成，被称为单元，以一系列的档次排列，用来了解所给出的信息。人工神经网络能够以各种形式应用，但它们最罕用于确定最能代表数据的独特特色，并依据该信息将其分类。

Oftadeh 说: “有很多人工神经网络工作得很好，咱们每天都在手机和电脑上应用它们。”。“例如，Alexa、 Siri 和谷歌翻译等应用程序利用人工神经网络来辨认不同的语音模式、口音和声音。”

但并不是所有的个性都同样重要，它们能够依照从最重要到最不重要的顺序排列。以前的办法应用一种特定类型的人工神经网络(称为主动编码器)来提取特色，然而他们不能精确地说出特色的地位或者哪些特色比其余特色更重要。

Oftadeh 说: “例如，如果你有成千上万的维度，只想找到最突出的 1000 个，而后排序那 1000 个，实践上是可行的，但实际上不可行，因为这个模型必须在数据集上反复运行 1000 次。”

为了使算法更智能，钻研人员倡议向网络中增加新的老本函数，以依据其绝对重要性间接排序特色的确切地位。一旦合并，他们的办法将导致更无效的解决，能够提供更大的数据集来执行经典的数据分析。

为了验证他们的办法的有效性，他们为光学字符识别(OCR)试验训练了他们的模型，光学字符识别试验是将打印的或手写的文本图像从数字物理文档外部转换成机器编码的文本，就像扫描仪生成的文本一样。一旦应用所提出的办法对其进行 OCR 训练，该模型就能够分辨出哪些特色是最重要的。

目前，该算法只能利用于一维数据样本，但该团队感兴趣的是扩大其算法的能力，以解决更简单的结构化数据。

Oftadeh 说: “间接合成多维数据是一个十分沉闷、富裕挑战性的数学钻研畛域，它自身也有许多挑战，咱们有趣味进一步摸索它。”

他们下一步的工作是推广他们的办法，提供一个对立的框架来生成其余机器学习办法，这些办法能够找到数据集的底层构造和/或通过设置大量的标准来提取其特色。