关于算法:R语言数据可视化分析案例探索BRFSS数据

5次阅读

共计 4092 个字符,预计需要花费 11 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=9284

加载包 

library(tidyr)
library(knitr)
opts_chunk$set(echo = TRUE, fig.align = "center")

载入材料

load("brfss2013.RData")

第 1 局部:数据

形容如何收集样本中的观测值,以及此数据收集办法对推断范畴(可概括性 / 因果关系)的影响。http://www.cdc.gov/brfss/,以及上面的“无关数据的更多信息”局部。

“BRFSS 是一项横断面电话考察,州卫生部门每月通过座机和电话进行考察,并取得标准化问卷和 CDC 的技术和办法反对。在进行 BRFSS 座机电话考察时,拜访员从一个家庭中随机抉择的成年人那里收集数据。在进行 BRFSS 问卷的电话版本时,拜访员从成年人中收集数据。”

推论范畴(普遍性 / 因果关系):

普遍性:考察数据是从 50 个州和美国领土收集的,这使得数据看起来足够随机样本,从而能够将其推广到整个美国人口。

因果关系:因为所有参与者均未承受指定的医治和对照组的医治 - 无奈假如因果关系 - 只能测量相关性。

方法论,偏见和须要改良的方面的问题:通过电话考察,有可能低估了几种类型的集体:

1. 没有座机或手机的集体

2. 回绝答复或加入电话考察的集体。

3. 在进行考察时无奈通过电话分割 / 无奈分割到考察的集体。

采访问题的答案尚未通过验证,这意味着受访者能够通过以下形式批改其答复:

1. 适度报告现实的行为和 / 或特色。

2. 漏报不良行为。

3. 夸张或扭曲某些特色,例如身高,学历或支出。

4. 谬误地提供要害信息。

5. 参加的机构之间的面试做法和问题集可能不统一。

供当前参考,如果数据集蕴含无关每个访谈的详细信息,例如收集数据的工夫和访谈的持续时间,将很有用。


第 2 局部:钻研问题

钻研问题 1:体重指数(BMI)是否与受访者本人的衰弱认识相干?

这个问题探讨了 BMI“失常”的人是否对本人的健康状况有更好的意识。尽管 BMI 并不是完满的衰弱指标,但仍被公认为衰弱的初始指标。

应用的总变量:2

genhlth- 个别衰弱

X_bmi5cat- 将 BMI 分为 4 类(体重过轻,失常,超重,瘦削)的计算变量

————-

钻研问题 2:一个人的夜间睡眠工夫与他们的能量程度之间是否存在相关性?性别之间有区别吗?

这是一个乏味的问题,因为常常吹牛睡眠是维持良好总体衰弱的重要组成部分。钻研表明,那些睡眠工夫少于 5 小时的人甚至更容易患慢性或重大疾病。

应用的总变量:3

sleptim1- 报告的睡眠工夫

qlhlth2- 在过来 30 天中,有几天被报告为“全力以赴”

性别 - 报告的生物性别

————-

钻研问题 3:总体生存满意度与受教育水平之间是否存在相关性?性别之间有什么区别吗?

这个问题将试图看看总体生存满意度和集体受教育水平之间是否存在任何关联。一些钻研表明,与受教育水平较低的人相比,受教育程度较高的人较少呈现婚姻问题,并且可能享有更好的健康状况。它将进一步探讨男性和女性之间是否存在任何差别。

应用的总变量:3

称心 - 整体生存满意度

教育 - 教育程度

性别 - 集体的生物性别

第 3 局部:探索性数据分析

钻研问题 1:体重指数(BMI)是否与受访者本身衰弱的认识相干?

load("brfss2013.RData")
dim(brfss2013)
## \[1\] 491775    330
  

``````
q1 <- select(brfss2013,genhlth,X_bmi5cat) %>% na.omit()
dim(q1)
  

``````
## \[1\] 463275      2

领有 460,000 多个察看值,通过表格进行察看更容易,如下所示:

prop.table(table(q1$genhlth,q1$X_bmi5cat),2)
##            
##             Underweight Normal weight Overweight      Obese
##   Excellent  0.19987805    0.26019496 0.17373887 0.07933813
##   Very good  0.26402439    0.35069868 0.35401238 0.26824837
##   Good       0.26146341    0.24667514 0.30698451 0.37088006
##   Fair       0.15829268    0.09751640 0.11943759 0.19913468
##   Poor       0.11634146    0.04491484 0.04582665 0.08239876

 表中 有大量的数据。

g1 <- ggplot(q1) + aes(x=X\_bmi5cat,fill=genhlth) + geom\_bar(position = "fill")
g1

每列代表 4 种 BMI 类别(体重过轻,失常,超重,瘦削)和形容本人健康状况的受访者比例。

能够得出结论,在肯定水平上,对这一问题的答复是“是”。个体的 BMI 与他或她本人对衰弱的认识之间仿佛存在关联。

钻研问题 2:一个人的夜间睡眠工夫与他们的能量程度之间是否存在相关性?性别之间有区别吗?

##     qlhlth2          sex         sleptim1     
##  Min.   : 0.00   Male  :162   Min.   : 2.000  
##  1st Qu.: 2.00   Female:287   1st Qu.: 6.000  
##  Median :15.00                Median : 7.000  
##  Mean   :15.56                Mean   : 7.013  
##  3rd Qu.:28.00                3rd Qu.: 8.000  
##  Max.   :30.00                Max.   :12.000
## Warning: Removed 12 rows containing non-finite values (stat_smooth).
## Warning: Removed 12 rows containing missing values (geom_point).

睡眠工夫和充斥能量的天数之间仿佛总体上呈正相干。女性的相关性仿佛比男性略强,因为男性的数据分布更宽泛。

++++++++++++++++++++++++

钻研问题 3:总体生存满意度与受教育水平之间是否存在相关性?性别之间有什么区别吗?

## # A tibble: 4 x 2
##   lsatisfy          count
##   <fct>             <int>
## 1 Very satisfied     5378
## 2 Satisfied          5506
## 3 Dissatisfied        598
## 4 Very dissatisfied   161
q3 %>% group_by(educa) %>%   summarise(count=n())
## # A tibble: 6 x 2
##   educa                                                        count
##   <fct>                                                        <int>
## 1 Never attended school or only kindergarten                      10
## 2 Grades 1 through 8 (Elementary)                                496
## 3 Grades 9 though 11 (Some high school)                         1078
## 4 Grade 12 or GED (High school graduate)                        3708
## 5 College 1 year to 3 years (Some college or technical school)  3055
## 6 College 4 years or more (College graduate)                    3296
q3 %>% group_by(sex) %>%   summarise(count=n())
## # A tibble: 2 x 2
##   sex    count
##   <fct>  <int>
## 1 Male    4078
## 2 Female  7565

男性和女性的教育程度和总体生存满意度之间仿佛总体上呈正相干。至多实现了高中(或同等学历)的人的满意度仿佛更高。数据中还存在某些异样值,其中一些反馈者在没有受过教育的状况下会“称心”或“十分称心”。因为大多数人口至多已从高中毕业,因而该数据仿佛精确地代表了受访者的散布。


最受欢迎的见解

1.R 语言动态图可视化:如何、创立具备精美动画的图

2.R 语言生存剖析可视化剖析

3.Python 数据可视化 -seaborn Iris 鸢尾花数据

4.r 语言对布丰投针(蒲丰投针)试验进行模仿和动静

5.R 语言生存剖析数据分析可视化案例

6.r 语言数据可视化剖析案例:摸索 brfss 数据数据分析

7.R 语言动静可视化:制作历史寰球平均温度的累积动静折线图动画 gif 视频图

8.R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析案例报告

9.python 主题 LDA 建模和 t -SNE 可视化

正文完
 0