关于数据挖掘:R语言上市公司经营绩效实证研究-因子分析聚类分析正态性检验信度检验

28次阅读

共计 2069 个字符,预计需要花费 6 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=32747

原文出处:拓端数据部落公众号

随着我国经济的疾速倒退,上市公司的经营绩效成为了一个备受关注的话题。本文旨在探讨上市公司经营绩效的相干因素,并使用数据处理、图示、测验和剖析等办法进行深入研究,帮忙客户对我国 45 家上市公司的 16 项财务指标进行了因子分析与聚类分析。

剖析脉络如下:

  • 数据预处理(包含缺失值,异样值,标准化这些)
  • 数据图示
  • 相关性测验正态性测验
  • 做因子分析和聚类分析

查看数据

读取到 r 软件中:

数据预处理(包含缺失值,异样值,标准化

首先,在进行数据分析前,须要对数据进行预处理。数据预处理包含缺失值的解决、异样值的排除、标准化解决等。另外,为了缩小数据误差,须要对数据进行标准化解决。

data=na.omit(data)

标准化和可视化

其次,在数据处理实现后,须要对数据进行图示。通过绘制散点图等图示,能够直观地理解各项指标的数值散布和趋势变动。同时,图示也有助于发现数据中的异样点和趋势漂移等问题。

数据的标准化及适用性测验

而后,进行相关性测验和正态性测验等统计办法。相关性测验能够通过计算相关系数的办法来判断各项指标之间的分割水平。而正态性测验则能够通过绘制概率图、矩阵图等办法,来判断数据是否合乎正态分布。通过这些测验办法,能够更精确地剖析数据,并确定适当的分析方法。

相关性测验

正态性测验

shapiro.test(data[,2])

信度测验后果

信度测验后果是指对某种测量工具(例如问卷、测试等)进行信度测验后失去的后果。信度测验是一种评估测量工具稳定性和一致性的办法,通常应用统计学办法来计算测量工具的外部一致性或者重测信度。通过信度测验,能够确定测量工具的可靠性和准确性,从而确定测量后果的可信度。信度测验后果能够帮忙研究者评估测量工具的品质,以确保钻研后果的可靠性和有效性。

KMO 测验:

KMO 测验是一种用于评估数据是否适宜进行因子分析的统计办法。KMO(Kaiser-Meyer-Olkin)测验的次要目标是测量数据集中各个变量之间的相关性,以确定是否存在足够的共性方差,从而确定是否适宜进行因子分析。KMO 值介于 0 和 1 之间,通常认为 KMO 值大于 0.6 示意数据适宜进行因子分析。如果 KMO 值低于 0.6,则表明数据不适宜进行因子分析,须要重新考虑数据收集和分析方法。

kmores=kmo(data\[,2:17])\
kmores\$overall

<!—->

## [1] 0.5985173

因子分析和聚类分析

接下来,进行因子分析和聚类分析。因子分析旨在寻找出反映上市公司经营绩效的次要因素,并通过统计办法进行因素提取和旋转。而聚类分析则是将样本进行分类,以便于对不同类别的上市公司进行比拟剖析。

因子分析

因子分析是一种统计办法,用于确定多个变量之间的关系。它将一组相干变量合成为更少的未察看到的变量,称为因子,这些因子能够解释原始变量的方差。因子分析可用于数据降维、变量抉择和构建模型等利用。它在社会科学、市场钻研和心理学等畛域失去广泛应用。

旋转成份矩阵

因子得分排名

K-means 聚类分析上市公司经营绩效

K-means 聚类分析是一种罕用的无监督学习办法,用于将一组数据分成 K 个不同的类别。该算法通过迭代的形式将数据点调配到不同的类别中,并且通过计算每个类别的中心点来更新类别的地位。K-means 聚类分析的指标是最小化每个数据点到其所属类别中心点的间隔平方和,从而使得每个类别外部的数据点尽可能的类似,不同类别之间的数据点尽可能的不同。该算法的长处是简略易懂,计算速度快,实用于大规模数据集的聚类分析。

在上市公司经营绩效的剖析中,能够将公司的各项经营指标作为输出数据,通过 K -means 聚类算法将公司分成若干类别,同一类别内的公司具备类似的经营绩效体现。这样能够帮忙投资者或经营者更好地理解市场上不同公司的经营情况,从而做出更理智的投资或经营决策。

memb <- hmod\$cluster

群集成员

cludata

plot(data[,2:17],mem

综上所述,我国上市公司经营绩效实证钻研波及到数据预处理、图示、测验和剖析等多个方面。其中,数据预处理和图示为剖析提供了根底和根据,测验和剖析则为钻研提供了科学性和可靠性保障。通过本文的钻研,能够更深刻地理解上市公司经营绩效的相干因素,为政府部门和企业提供决策参考。


最受欢迎的见解

1.matlab 偏最小二乘回归 (PLSR) 和主成分回归(PCR)

2. R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析

3.主成分剖析 (PCA) 基本原理及剖析实例

4. R 语言实现贝叶斯分位数回归、lasso 和自适应 lasso 贝叶斯分位数回归

5.应用 LASSO 回归预测股票收益数据分析

6. r 语言中对 lasso 回归,ridge 岭回归和 elastic-net 模型

7. r 语言中的偏最小二乘回归 pls-da 数据分析

8. R 语言用主成分 PCA、逻辑回归、决策树、随机森林剖析心脏病数据并高维可视化

9. R 语言主成分剖析(PCA)葡萄酒可视化:主成分得分散点图和载荷图

正文完
 0