关于visual-studio-code:R语言对综合社会调查GSS数据进行自举法bootstrap统计推断假设检验探索性数据分析可视化

42次阅读

共计 9406 个字符,预计需要花费 24 分钟才能阅读完成。

全文链接:https://tecdat.cn/?p=33514

综合社会考察(GSS)是由国家舆论钻研核心发展的一项察看性钻研。
自 1972 年以来,GSS 始终通过收集当代社会的数据来监测社会学和态度趋势。其目标是解释态度、行为和属性的趋势和常量。从 1972 年到 2004 年,GSS 的指标人群是寓居在家庭中的成年人(18 岁以上)。

本篇论文旨在帮忙客户应用 R 语言对 GSS 数据进行自举法 bootstrap 统计推断、假设检验以及探索性数据分析可视化。首先,咱们将简要介绍 GSS 数据集的特点和背景。而后,咱们将具体阐明自举法 bootstrap 的原理和利用,以及如何利用 R 语言进行自举法 bootstrap 剖析。接着,咱们将探讨假设检验的概念和步骤,并展现如何应用 R 语言进行假设检验剖析。最初,咱们将介绍数据可视化的重要性,并演示如何应用 R 语言生成图表和可视化后果。

第 1 局部:数据

1994 年以前,寰球住户抽样调查简直每年进行一次(1979 年、1981 年或 1992 年因资金限度除外)。尔后,寰球抽样调查在偶数年进行,采纳双重抽样设计。这次要是通过面对面的访谈实现的。2002 年,寰球抽样调查开始应用计算机辅助集体访谈(CAPI)。此外,当难以安顿与被抽样调查对象进行面对面面谈时,也会通过电话进行面谈。
从 1972 年到 1974 年的考察中,采纳了修改概率抽样法(整群配额抽样法)。从 1975 年到 2002 年,寰球住户抽样调查采纳了齐全概率住户抽样,使每个住户被纳入考察的概率相等。因而,寰球住户抽样调查对住户一级的变量进行了自加权。为了放弃设计的无偏性,寰球住户抽样调查开始采纳两阶段子抽样设计。

加载数据

load("C:/gs.data")

第 2 局部:钻研问题

咱们想理解工作满意度与受访者是自营职业者还是为别人工作之间是否存在关系。咱们的剖析将侧重于《政府统计调查》报告。
为此,咱们将答复以下问题:

  1. 对本人的工作感到称心的个体经营者和对本人的工作感到称心的个体经营者的人口比例是否存在差别?
  2. 对工作十分称心的自雇人的均匀家庭收入(经通货膨胀调整后)是否高于对工作十分称心的为别人工作的人?
  3. 对工作十分称心的自营职业人和对工作十分称心的为别人工作的人的典型家庭收入(如果与均匀家庭收入不同)是多少?两者的典型家庭收入是否存在差别?
    趣味:就我集体而言,因为我做出了转行的决定,我始终在想,工作满意度是取决于待业情况,还是仅仅取决于所从事工作的性质,而不论是为别人工作还是自营职业。此外,出于好奇,我还想晓得自营职业者和为别人工作的成年人对工作真正称心的均匀 / 典型家庭收入。

第 3 局部:探索性数据分析

在本剖析中,咱们将剔除所有缺失后果(所有 NA)。
为便于剖析

gssc <- gss %>%
  filter(year == "2012") %>%
  select(satjob, wrkslf, coninc, income06)

应用 summary(gssc) 查看数据摘要,应用 str(gssc) 查看数据结构。理解变量的组成值(类型和构造)将有助于咱们进行剖析。

str(gssc)

summary(gssc)

为了答复咱们的钻研问题,咱们心愿理解自营职业受访者以及为别人工作的受访者中对其工作感到称心(十分称心和比较满意)和不称心(十分不称心和有点不称心)的人数和比例。

首先,咱们要找到计数:

gssc %>% 
  filter(!is.na(wrkslf), !is.na(satjob)) %>% 
  group_by(wrkslf) %>% 
  count(satjob)

而后,咱们利用上述后果创立一个或然率表。


conting.table <- as.table(conting)
conting.table

咱们能够应用镶嵌图和柱状图来直观地显示上述后果。

mosaicplot(conting
           color = "skyblue") 

gssc %>%
  filter(!is.na(satjob), !is.na(wrkslf)) %>%
  ggp.y = element_blank(), axis.ticks.y = element_blank())

超过 50% 的个体经营者对本人的工作十分称心,约 50% 的为别人工作的人也对本人的工作十分称心。

conting.table %>%
  prop.ta
  round(3)

自雇受访者中对工作十分不称心的比例很低,仅为 1.3%,而为别人工作的受访者中有 3.4% 对工作十分不称心。

对工作称心的自雇人与对工作称心的为别人工作的人的比例

gssc <- gssc %>% 
  mutate(lsatjob = 
gssc %>% 
  filter(!is.n

咱们感兴趣的是对工作称心的自雇受访者和为别人工作的受访者的比例。

gssc %>% 
  filter(!is.na(wrkslf),= "Satisfied")/n())

支出、待业情况与工作满意度之间的关系

在为别人工作的受访者和自营职业者中,对工作感到称心的人占很大比例。咱们将钻研收入水平与待业情况(自营职业和为别人工作)对工作满意度的关系。正如咱们在钻研问题中指出的,咱们的重点是对工作十分称心的受访者的均匀家庭收入。

Plot1 <- gssc %>%
  filter(wrkslf == "Self-Employed", !is.na(satjob), !is.na(income06)) %>% 
grid.arrange(Plot1, Plot2, ncol = 2,

从柱状图中咱们能够看出,对于两种待业情况的受访者而言,随着家庭总收入程度的减少,对工作十分称心和个别称心的受访者人数都在减少,只有多数人对工作 “ 有点不称心 ”(支出在 11 万美元以上的自雇受访者除外)。

让咱们更分明地理解家庭总收入中对工作十分称心的自营职业受访者和为别人工作的受访者。

gssc %>%
  filter(satjob == "Very Satis), axis.ticks.x = element_blank())

咱们心愿评估对工作十分称心的两种待业情况下的均匀家庭收入(通货膨胀调整后)。为此,咱们绘制了直方图和方框图,并进行了汇总统计,以确定数据的形态、核心和变异性。

请记住,在 155 名自营职业受访者中,有 97 人对本人的工作十分称心;在 1276 名为别人工作的受访者中,有 626 人对本人的工作十分称心(见上文的或然率表)。

p3 <- gssc %>%
  filter(satjob == "Very Satisfied", wrkslf == "Self-Employed", !is.na(coninc)) %>% 
  

两个样本分布都向右强烈歪斜,典型的家庭收入将是散布的中位数。IQR 能够最好地解释这两个散布的变异性。

咱们绘制一个方框图来直观显示样本的状况:

gssc %>%
  filter(satjob ==
  

如前所述,这两个散布均呈强烈的右偏态,离群值均高于 150 000 元。

让咱们对这两个样本进行汇总统计。

gssc %>%
  filter(satjob == "Very Satisfied",
  nc, 0.75))



gssc %>%
  filter(satjob == "Very
  

对工作十分称心的自雇人士的典型家庭收入为 51 705 元,家庭收入变数为 70 855 元。支出较低的 25% 的人的支出为 21,065 元,75% 的人的支出为 91,920 元。他们的均匀家庭收入为 70,911.8 元。

gssc %>%
  filter(satjob
  



  count(wrkslf)

为别人工作的人对本人的工作十分称心,其典型家庭收入为 42,130 元,家庭收入变数为 55,535 元,低于自营职业的人。他们中支出最低的 25% 的人的支出为 21 065 元(与自雇者雷同),75% 的人的支出为 76 600 元,低于自雇者。他们的均匀家庭收入为 56 165.08 元。

在下一节中,咱们将理解对工作十分称心的个体经营者的均匀家庭收入是否高于为别人工作且对工作十分称心的个体经营者的均匀家庭收入。咱们还将进行假设检验,以预计他们的典型支出是否存在差别。

第 4 局部:推断

工作满意度与待业情况之间的关系(自营职业者和为别人工作的受访者)
为了答复 “ 工作满意度与待业情况之间是否存在关系 “ 这一问题,咱们将对其独立性进行卡方测验(对于两个分类变量,至多有 1 个大于 2 个程度的变量)。

咱们将定义测验假如:
H0(什么也没产生):工作满意度和待业情况是独立的。工作满意度不会因受访者的待业情况而变动。
HA(有事产生):工作满意度和待业情况互为因果。工作满意度的确因受访者的待业情况而异。
而后,查看是否存在以下条件

chisq<- chisq.t
chisq

在 5% 的显着程度上,P 值小于 0.05,因而咱们回绝 H0。因而,数据提供了令人信服的证据,表明工作满意度的确因受访者的待业情况而异,但咱们还须要确认所有预期计数是否都有至多 5 个案例。

#Expected Counts
chisq$expected

对工作十分不称心的自雇受访者的预期人数比 5 人少 0.13 人。咱们能够疏忽它,因为它近似于 5(显著性数字),它只是一个单元格,而咱们的数据是一个 2 乘 4 的表格,咱们能够承受下面的卡方测验后果,但咱们有可能呈现类型 1 谬误(回绝零假如,而实际上零假如是真的)。
咱们能够持续应用推论函数进行具体的卡方剖析,或者为了更确定后果,将最初两行折叠为 “ 不称心 “ 行,而后进行推论测验,或者间接应用自举测验。
咱们将采纳后两种倡议,以确保满足样本量条件并缩小类型 1 谬误。

bootstrap 自举法

因为上述起因,咱们将应用疏导法来测验咱们的假如,即待业情况和工作满意度是相干的。

gssc %>%
  
            alternative = "greater", boot_method = "perc", nsim = 15000)

因为 p 值低于 0.05,咱们回绝零假如,从而证实了上述皮尔逊卡方测验的论断。
咱们将持续应用倡议中的另一种办法来确认咱们的后果。

因预期计数小于 5 而折叠单元格

创立一个新变量 csatjob 并增加到数据帧 gssc 中。

gssc <- gssc %>% 
 Satisfied","Dissatisfied")))

找出察看到的计数。预期计数和或然率表将显示在咱们的 “ 推断 “ 后果中。

gssc %>% 
  filter(!is.na(wrkslf), !is.na(csatjob)) %>% 
  group_by(wrkslf) %>% 
  count(csatjob)

因而,咱们将持续进行假设检验,即因为所有条件都已满足,待业情况和工作满意度在 5% 的显著性程度上存在关联。

gssc %>%
  filter(!i
            alternative = "greater")

p 值小于咱们之前的后果,因而缩小了类型 1 谬误的可能性。
因而,在 5% 的显著程度上,p 值小于 0.05,所以咱们回绝 H0。因而,数据提供了令人信服的证据,证实工作满意度和待业情况如前所述是相互依赖的。

对工作感到称心的自营职业者与对工作感到称心的为别人工作者之间的差别

咱们想理解对本人的工作感到称心的自雇人与对本人的工作感到称心的为别人工作的人之间的人口比例是否存在差别。请点击查看下面的数据。

从咱们的数据来看,91.6% 的自雇受访者对本人的工作感到称心,87.1% 的为别人工作的受访者对本人的工作感到称心。

首先,咱们将应用 95% 的置信区间来预计差别。

相干参数:对工作感到称心的所有自雇人与对工作感到称心的为别人工作的人之间的差别。

点估计值:对工作感到称心的(抽样)自雇受访者与对工作感到称心的(抽样)为别人工作的受访者之间的差别。

咱们查看是否满足比拟两个独立比例的条件。

  1. 独立性:随机抽样:两个人群都是随机抽样的;10% 的受访者对工作称心。
gssc %>%
  filter(!is.na(lsatj

咱们有 95% 的把握认为,对工作感到称心的自雇人的总体比例比对工作感到称心的为别人工作的人的总体比例少 0.27% 到多 9.2%。

那么,依据咱们下面计算出的置信区间,咱们是否应该预期在对工作感到称心的宽广自雇人和对工作感到称心的为别人工作的人的人口比例之间会发现显著差别(在等同显著性程度下)?

p 自营职业者 – p 其他人 = (-0.0027 , 0.092)

H0:p 自营职业者 – 其他人

空值蕴含在区间内,因而咱们无奈回绝 H0。因而,上述问题的答案是否定的。从咱们的数据来看,对本人的工作感到称心的自雇人和对本人的工作感到称心的为别人工作的人之间的人口比例没有显著差别。

咱们将通过在 5% 的显著性程度上进行假设检验来确认上述后果,以评估对工作称心的自雇人和对工作称心的为别人工作的人之间是否存在差别。

让咱们为测验定义假如:

H0:p 自雇 = p 其他人。

对工作称心的自雇人与对工作称心的为别人工作的人的人口比例雷同。

HA: p= p 其他人。

对工作称心的自雇人与对工作称心的为别人工作的人的人口比例存在差别。

而后,查看是否满足进行假设检验(比拟两个比例)的推理条件:

  1. 独立性:组内满足:随机抽样:两个人群都是随机抽样;两个人群都满足 10% 的条件。因而,对工作称心的自雇抽样受访者互相独立,而对工作称心的为别人工作的受访者(抽样)也互相独立:咱们预计对工作称心的自雇抽样受访者和对工作称心的为别人工作的受访者(抽样)不会相互依赖。
  2. 样本大小 / 偏斜:咱们须要汇合比例来查看胜利 - 失败条件(胜利条件 - n*p^pool >= 10,失败条件 - n(1 – p^pool) >= 10)。
phat_pool

155 * phat_pool

155 * (1 - phat_pool)

# Someone else: success
1276 * phat_pool

1276 * (1 - phat_pool)

自营职业者和其他人都合乎抽样规模 / 偏斜条件。咱们能够假设,两个比例之差的抽样散布靠近正态。

因而,咱们能够持续进行假设检验,因为所有条件都已满足。

gssc %>%
  filter(!is.na(lsatjob), !is.na(wrkslf)) %>%
  inference(y = lsatjob, x = wrkslf, type = "ht", statistic = "proportion", success = "Satisfied", 
            method = "theoretical", alternative = "twosided")

p 值大于 0.05,因而咱们无奈回绝零假如。数据没有提供强有力的证据表明,对工作称心的个体经营者与对工作称心的个体经营者的人口比例不同。这与置信区间法得出的论断统一。

对工作十分称心的自雇人和对工作十分称心的为别人工作的人的均匀和典型家庭收入的差别。

咱们想理解对工作十分称心的自雇人的均匀家庭收入(经通胀调整后)实际上是否高于为别人工作且对工作十分称心的人。请点击查看以上数据。

依据咱们的数据,对工作十分称心的自雇受访者的均匀家庭收入为 70,911.8 元,而为别人工作且对工作十分称心的受访者的均匀家庭收入为 56,165.08 元。

首先,咱们将应用 90% 的置信区间来预计差别。咱们抉择 90% 的置信区间是为了使咱们的钻研后果与假设检验统一,而假设检验在 5% 的显著程度下是单侧的。

相干参数:对工作十分称心的所有自雇人士与对工作十分称心的为别人工作的自雇人士的均匀家庭收入之差。

点估计值:对工作十分称心的抽样自雇人与对工作十分称心的(抽样)为别人工作的人的均匀家庭收入之差。

咱们查看是否满足比拟两个独立均值的条件。

  1. 独立性:组内满足:随机抽样:两个人群都是随机抽样;两个人群都满足 10% 的条件。因而,对工作称心的自雇受访者和对工作称心的为别人工作的受访者(样本)的家庭收入是互相独立的:两组之间互相独立(非配对)。
  2. 样本大小 / 偏斜:两个散布都向右强烈歪斜;81 和 578 的样本量使得应用 t 散布对每个均值别离建模是正当的。

所有条件都已满足,因而咱们将应用 90% 的置信区间来预计差别。

gssc %>%
  filter(satjob == "

根据上述后果,咱们有 90% 的把握认为,对工作十分称心的宽广自雇人的均匀家庭收入(经通胀调整后)比对工作十分称心的为别人工作的人的均匀家庭收入多 2,635.08 元至 26,858.36 元。

那么,根据上述咱们计算出的置信区间,咱们是否应该预计对工作十分称心的宽广自雇人和对工作十分称心的为别人工作的人的均匀家庭收入之间存在显著差别(在等同显著性程度下)?

自营职业者 – 为别人工作者 = (2635.0838 , 26858.362)

该值不在置信区间内;咱们回绝 H0。因而,上述问题的答案是必定的。从咱们的数据来看,对工作十分称心的自雇人的均匀家庭收入高于对工作十分称心的为别人工作的人的均匀家庭收入。

咱们将在 5% 的显著性程度上进行假设检验,以评估对工作十分称心的个体经营者的均匀家庭收入是否高于对工作十分称心的为别人工作的个体经营者的均匀家庭收入,从而证实上述后果。

让咱们定义一下测验假如:

H0:自营职业者 = 为别人工作者。对工作十分称心的自雇人的均匀家庭收入高于为别人工作且对工作十分称心的自雇人。

HA:自营职业者 > 为别人工作者。对工作十分称心的自雇人的均匀家庭收入高于对工作十分称心的为别人工作的人的均匀家庭收入。

比拟两个独立均值的推论条件曾经满足,因而咱们持续进行假设检验。

gssc %>%
  filter(satjob =

p 值小于 0.05,因而咱们回绝零假如。数据提供了令人信服的证据,表明对工作十分称心的个体经营者的均匀家庭收入高于为别人工作且对工作十分称心的个体经营者。这与置信区间法得出的论断统一。

对工作十分称心的自雇人与对工作十分称心的为别人工作的人的典型家庭收入比照

如前所述,典型家庭收入就是支出中位数。因而,咱们将应用 Bootstrap 办法(用于比拟中位数)来预计对工作十分称心的自雇人和对工作十分称心的为别人工作的人的典型家庭收入是否存在差别。

依据咱们的数据,对工作十分称心的自雇受访者的典型家庭收入为 51 705 元,而为别人工作且对工作十分称心的受访者的典型家庭收入为 42 130 元。

咱们将用 95% 的置信区间来预计典型家庭收入的差别,并用标准误差法进行 5% 显著程度的假设检验。如前所述,所有条件均已满足。

相干参数:对工作十分称心的所有个体经营者的典型家庭收入之差

点估计值:被抽样调查的对工作十分称心的自雇人的典型家庭收入与被抽样调查的对工作十分称心的为别人工作的人的典型家庭收入之间的差别。

95% 置信区间的 bootstrap 疏导法

gssc %>%
  filter(satjob =
  
            nsim = 15000, boot_method = "se")

根据上述后果,咱们有 95% 的把握认为,对工作十分称心的宽广自雇人的典型家庭收入(经通胀调整后)比对工作十分称心的为别人工作的人少 4,583.73 元,多 23,733.73 元。

那么,根据上述咱们计算出的置信区间,咱们是否应该冀望在对工作十分称心的宽广自雇人和对工作十分称心的为别人工作的人的均匀家庭收入之间发现显著差别(在等同显著性程度下)?

Pop_medianself-employed – Pop_mediansomeone else = (-4583.7323 , 23733.7323)

H0:Pop_median-self-employed – Pop_medsomeone else = 0。

0 在置信区间内;咱们无奈回绝 H0。因而,上述问题的答案是否定的。从咱们的数据来看,对本人的工作十分称心的宽广自雇人和对本人的工作十分称心的为别人工作的人的典型家庭收入之间没有显著差别。

咱们将在 5% 的显著性程度上进行假设检验,利用 Bootstrap 办法来评估对工作十分称心的自雇人和对工作十分称心的为别人工作的人的典型家庭收入是否存在差别,从而证实上述后果。

让咱们定义一下测验假如:

H0:Pop_med-self-employed = Pop_medsomeone else。对工作十分称心的自雇人与对工作十分称心的为别人工作的人的典型家庭收入雷同。

HA: Pop_med-self-employed != Pop_medsomeone else。对工作十分称心的自雇人与对工作十分称心的为别人工作的人的典型家庭收入存在差别。

gssc %>%
  filter(satjob =, nsim = 15000, boot_method = "se")

p 值大于 0.05,因而咱们无奈回绝零假如。数据没有提供强有力的证据表明,对工作十分称心的个体经营者的典型家庭收入与为别人工作且对工作十分称心的个体经营者的典型家庭收入有所不同。这与上文(自举 bootstrap 法)置信区间法得出的论断统一。

第五局部:论断

通过剖析和推论,咱们对 2012 年得出以下论断(如每个推论后所述):

  1. 数据提供了令人信服的证据,表明工作满意度的确因受访者的待业情况(自营职业和为别人工作)而异。它们之间存在依赖关系。
  2. 数据没有提供无力证据表明,对工作称心的自雇人与对工作称心的为别人工作的人的人口比例不同。
  3. 数据提供了令人信服的证据,证实对工作十分称心的自雇人的均匀家庭收入高于对工作十分称心的为别人工作的人的均匀家庭收入。
  4. 数据没有提供无力证据表明,对工作十分称心的自雇人的典型家庭收入与为别人工作且对工作十分称心的人的典型家庭收入不同。

参考资料

  1. David M Diez, Christopher D Barr and Mine Cetinkaya-Rundel. “OpenIntro Statistics, Third Edition”. (2016).

最受欢迎的见解

1.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94…)R 语言多元 Logistic 逻辑回归 利用案例

2.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88…)面板平滑转移回归 (PSTR) 剖析案例实现

3.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c…)matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94…)R 语言泊松 Poisson 回归模型剖析案例

5.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88…)R 语言回归中的 Hosmer-Lemeshow 拟合优度测验

6.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%a…)r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7.[](https://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8…)在 R 语言中实现 Logistic 逻辑回归

8.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e6%89…)python 用线性回归预测股票价格

9.[](https://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e7%9a%84%e7%94…)R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

正文完
 0