乐趣区

关于数据挖掘:什么是结构方程建模SEM和R语言心理学和营销研究数据路径图可视化

文链接:http://tecdat.cn/?p=26206**

构造方程建模 (SEM) 是一个十分宽泛和灵便的 数据分析框架 ,兴许更好地被认为是 一系列相干的办法,而不是繁多的技术。它与营销钻研有什么关系?

它的起源能够追溯到 20 世纪之交的心理学家查尔斯·斯皮尔曼和第一次世界大战后的遗传学家 Sewall Wright。许多其他人也参加了它的开发,尤其是 Karl Jöreskog 和 Peter Bentler。协方差构造剖析和 LISREL(Jöreskog 共同开发的程序的名称)是偶然与构造方程建模调换应用的其余术语。

它与营销钻研有什么关系?态度、观点和个性特征 是消费者行为的重要驱动因素,但它们是 潜在 的构造,营销钻研人员实际上无奈察看或间接掂量它们。咱们只能依据咱们_能够_察看到的状况来推断它们,例如对 问卷我的项目 的答复。测量潜在构造具备挑战性,咱们还必须将 测量误差 的预计纳入咱们的模型中。SEM 善于这两项工作。

简而言之,SEM 同时联合了 因子分析和 回归 *,但为建模者提供了比这两种技术中的任何一种都大得多的灵活性。这_与_运行因子分析而后将 因子分数输出多重回归不同 。SEM 特地实用于因果剖析。此外,当 多重共线性 *(高度相干的自变量)成为一个问题时,SEM 是许多钻研人员的首选工具。

SEM 中相似于因子分析的局部称为_测量模型_,将测量模型的组成部分分割在一起或将它们与一个或多个因变量相关联的元素称为_构造模型_。然而,有时,在剖析之前,变量会依据教训或实践根底进行组合(“打包”),而测量模型则不起作用。在其余时候,咱们不关怀测量误差,只应用原始变量——SEM 术语中的“察看变量”。当没有测量模型(只有构造模型)时,路径分析这个术语比 SEM 更适合,只管有些人十分广泛地应用“SEM”。

尽管常常用于 剖析考察数据 ,但它不限于任何一种数据源,能够与 社交媒体数据、客户交易数据、经济数据 一起应用,甚至在神经科学中用于剖析 fMRI 数据。在其古代模式中,它可能与任何数据类型一起应用——比率、区间、序数、名义和计数——并且能够对变量之间的曲线关系以及交互作用进行建模。

它不须要残缺的数据……它能够包容多个因变量,有时与联结剖析混合。SEM 还可用于调整消费者考察和其余问卷数据中的集体响应格调。

咱们什么时候应用它?

设想一下,如果您想更好地理解哪些 消费者感知 与您的 产品或服务 类别中的 喜爱、购买趣味或满意度最密切相关,并查看是否存在不同感知的潜在消费者细分(聚类)。尽管不是一个简略的建模工作,但 SEM 将实用于这些指标,并且品牌的图像也能够被映射,以帮忙咱们理解品牌感知背地的维度如何辨别品牌。

 

SEM 可用于更简略的工作,例如上面对于 男性集体护理类别的消费者 考察示例。该插图是残缺模型的简化和暗藏版本,其中包含更多属性以及年龄等外生变量。我应该留神,除了门路图之外,还有很多输入须要仔细检查!

  • 在下面的门路图中,椭圆代表因素,在 SEM 术语中也称为潜变量、未察看变量或未测量变量。这些是能够推断但不能间接测量的实践概念。

  • 矩形用于示意属性,也称为测量变量、察看变量或清单变量。在此示例中,传统 因素由 知名度、大品牌_和_可靠性 属性示意或掂量。

  • 从一个潜在变量指向另一个潜在变量的单向箭头描述了假如的 因果关系 ,例如 传统 品牌价值 的影响,这是本剖析中的因变量。这些能够比作回归系数。从潜在变量到属性的单向箭头等效于因子分析中的载荷。

  • 在这个例子中,双头箭头 是潜在外生(独立)变量之间的相关性。

  • 与箭头相邻的数字是回归系数、相关系数和因子载荷。在 SEM 中,回归系数通常小于相关性和载荷,就像这里一样。

  • 为了缩小凌乱,我省略了误差和残差项,它们相似于因子分析中的独特因素和回归中的残差项。

本次考察中评分的品牌也依据其在残缺模型中的因子得分绘制在散点图中。出于窃密和篇幅的起因,此处未显示。

几个常见问题解答

我须要多大的样本?多年来援用的两个指南是至多 200 个案例(例如,考察受访者)和每个测量变量至多 10 个案例(例如,如果模型中有 25 个属性评级,则 250 个受访者)。然而,这些指南只是教训法令,当初受到许多质疑。

大数据呢?在过来的 10-15 年里,SEM 才开始迁徙到其发源地之外——次要是心理学、社会学和教育学。我记得在美国统计协会杂志上读过一篇文章,向其读者介绍了这种办法。如果我没记错的话,那是在 2006 年,在 SEM 用于社会和行为科学很久之后。在我看来,它在营销钻研中仍未失去充分利用,高级剖析通常也是如此。

数据科学家当初仿佛才开始理解 SEM。这不是一个计算疾速的过程,但在明天的硬件上,在具备许多变量的相当大的样本上运行良好。“大”是绝对的!在某些状况下,应用规范机器学习工具(例如 LogitBoost 进行预测)和对雷同数据样本应用 SEM 来尝试了解生成数据的机制是有意义的 - 营销语言中 的起因

我须要做哪些统计假设?这是十分具体的,具体取决于您运行的 SEM 模型的类型。与大多数统计程序一样,SEM 对违反假如十分持重,一般而言,标准误差比系数估计值更容易受到攻打。

我据说 SEM 只能用于测验假如。这是真的?这是对统计数据的广泛误会,而不仅仅是 SEM。实践不是凭空出现的,而且常常是在察看的根底上倒退起来的。简而言之,咱们看到事件正在产生,并试图找出它们产生的起因。也就是说,探索性剖析——即便你只是应用穿插表——也会带来很高的发现危险,这些发现不会复制或推广到样本或十分狭隘的人群之外。咱们总是须要小心并做好功课。

我怎么晓得我的模型好不好?为此应用了多种拟合指数。比拟拟合指数 (CFI) 和近似均方根误差 (RMSEA) 可能是最常见的。更相熟的 R 平方有时也能提供丰盛的信息。不过,我应该强调,该模型是否“足够好”最终将取决于常识、相干实践和对决策者的潜在效用。在很大水平上,这是一个判断电话。

延长浏览

 
网上有大量对于 SEM 的资料,以及对于 SEM 的研讨会和大学课程,或者将其作为次要主题。Barbara M. Byrne 撰写了一些可读性极强的介绍性书籍,重点介绍宽泛应用的商业 SEM 统计软件包(例如,_应用 EQS 进行构造方程建模_)。Rex B. Kline 的畅销书名为  _《构造方程建模的原理和实际》,_略微高级一点但也十分易读。

_具备潜在变量的构造方程_(Bollen) 是揭示 SEM 数学根底的“经典”。_如前所述,Stan Mulaik 的构造方程线性因果建模与_Bollen 的类似,但更新且更集中于因果剖析,这是 SEM 的次要利用。_构造方程建模手册 (Hoyle)_是一本密集而全面的书,涵盖了所有次要的 SEM 主题。

_A Primer on Partial Least Squares Structural Equation Modeling_ (Hair et al.) 和_Causality: Models, Reasoning and Inference_ (Pearl) 别离介绍了 PLS 和贝叶斯网络,这两种办法被一些钻研人员视为 SEM 的代替办法。

良好的心理测量学背景将帮忙您充分利用 SEM。_心理测量学:导论_(Furr 和 Bacharach)和_心理测量实践导论_(Raykov 和 Marcoulides)是这两本最新的教材,如果您是这门学科的老手,能够帮忙您入门。其中第二个比第一个要先进得多。

总结

这是一个弱小的工具,从统计学上讲,也是十分危险的。只管 SEM 在技术上非常复杂,但应用当今用户敌对的软件很容易将本人点击进入十分难堪的状况。

许多模型可能提供与数据类似的拟合,但为决策者提供了截然不同的解释和口头计划。另外,咱们须要留神不要过拟合,用 SEM 很容易做到。

营销钻研的一个重要畛域介于纯_定性_钻研和艰辛的_定量_钻研之间,而 SEM 在这个灰色空间中特地灵便。

退出移动版