关于数据挖掘:R语言空气污染数据的地理空间可视化和分析颗粒物25PM25和空气质量指数AQI附代码数据

5次阅读

共计 3133 个字符,预计需要花费 8 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=23800

最近咱们被客户要求撰写对于空气污染数据的钻研报告,包含一些图形和统计输入。

因为空气污染对公众衰弱的不利影响,人们始终十分关注。世界各国的环境部门都通过各种办法(例如高空观测网络)来监测和评估空气污染问题

介绍

寰球的地面站及时测量了许多空气污染物,例如臭氧、一氧化碳、颗粒物。EPA(环境保护署)提供了空气污染数据,本文抉择了颗粒物 2.5(PM2.5)和空气质量指数(AQI)这两个要害变量,以可视化和剖析空气污染的趋势和模式。PM2.5 代表直径小于 2.5 微米的颗粒物浓度,AQI 是综合思考所有次要污染物的空气污染情况的整体指标。具体来说,此工作的数据源列出如下:

  • 监测人员每天的 PM 2.5 浓度程度和 AQI 指数数据;
  • 县一级的 AQI 年度摘要。

数据预处理

每日站点数据蕴含每个地面站与 PM2.5 相干的各种属性。无关站信息,污染物的要害变量通过以下代码从原始数据中过滤掉。重命名过滤后的数据框的列名,以不便以下剖析。

# 导入数据
aqi <- read_csv("aqi.csv")

daily<- read_csv("daily.csv")

names(data) <- c( "date", 
                     "pm25", "aqi",  "long", "lat")

统计摘要

对点级 PM2.5 浓度和县级 AQI 指数的根本统计形容能够帮忙更好地了解这两个变量。在这里,直方图和箱形图用于可视化 PM2.5 浓度和 AQI 的散布特色。每日 AQI 指数可掂量空气污染的重大水平,可用于依据 AQI 的值将天数分为不同的类别。就空气污染程度而言,通常能够将天气分为四类,包含良好,中度,不衰弱和危险。

本报告中应用的县级 AQI 数据包含四个类别变量,代表每个类别的天数。上面的代码直观地显示了四个类别变量的散布。依据直方图,大多数县在整年总体空气质量良好,这能够通过 良好 ''散布的偏斜来示意,不衰弱 ” 和 危险'' 的 0 天左右的散布距离十分窄。此外,良好 ” 和 中等 '' 的散布显示出相同的偏斜,这表明空气质量中等的日子在全年并不典型,因为 中等 ” 的散布集中在 50 天以下,而 “ 良好 ” 的散布在 250 天以上。

## 县域内 aqi 的直方图
vi <-
  aqi %>% 
  select(` 好 ', ` 中等', ` 不衰弱 ', ` 危险') %>%

ggplot(data = vi)

县级数据代表空气污染的平均水平。来自地面站的 PM2.5 和 AQI 的点级测量形容了空气污染的详细情况和当地状况。


点击题目查阅往期内容

R 语言空间可视化:绘制英国脱欧投票地图

左右滑动查看更多

01

02

03

04

站级的 PM2.5 和 AQI 的散布如下所示。两种散布都显示出正偏度,AQI 汇集在 50 左近,而 PM2.5 低于 25。在这一年中,很少呈现两个变量都具备高值的站点。

## ##AQI 和 PM2.5 的直方图
  pmaqi  %>%
ggplot(data) +
  geom_histogram(aes(x = value), bins = 35) +

ggplot(data) +
  geom_boxplot(aes(x =class,  y = value))

工夫变动

每日数据记录了 2018 年监测站点每天的观测工夫序列,可用于摸索 PM2.5 和 AQI 的趋势。首先,针对每种数据对每种状态下站点的测量值求均匀。抉择了七个州的工夫序列以显示其一年中的变动,如下所示。从该图能够看出,南部和西部各州在年初就经验了重大的空气污染问题。趋势曲线的顶峰表明,下半年的空气质量均较差。

## 按州和日排列
vis <- 
  select(state, date, pm25, aqi) %>%
  group_by(state, date) %>%
  summarise(pm25 = mean(pm25), aqi = mean(aqi)) %>%

ggplot(data = vis)

为了显示总体变动,每天汇总来自所有监督的测量值。一年中的总体变动绘制如下。咱们能够看到,AQI 和 PM2.5 的变化趋势显示出类似的模式,而冬季和夏季的空气污染更为严重。

## 按天数计算
  select(date, pm25, aqi) %>%
  group_by(date) %>%
  summarise(mean(pm25), mean(aqi)) %>%
ggplot(data = vis) +

空间散布

汇总了针对不同州的县级 AQI 指数,以摸索每个州的空气质量的空间变动。下图通过突变色彩绘制了变量良好天气的不同平均值。该地图显示了各州空气质量良好的日子。从地图上能够看出,北部和东部地区的空气条件比其余州更好。

## 按州汇总 aqi(区域程度)。vis <- 
  aqi %>%
  group_by(State) %>%


ggplot() +
  geom_polygon(aes(x = long, y = lat, group = group, fill = good)

上面还绘制了不衰弱天数变量的平均值,这证实了以前的察看后果,即东部各州的空气条件较好。

ggplot() +
  geom_polygon(aes(x = long, y = lat, group ,  fill),          
  scale_fill_distiller

每个站点的站点级别测量值汇总为年平均值。下图显示了美国年均匀 PM2.5 浓度的空间散布。绿色点示意较低的 PM2.5 浓度。西部的测站测得的 PM2.5 浓度较高。

## 数据的汇总
### 用于 pm2.5
  pmaqi %>%
  summarise(pm25 = mean(pm25), aqi = mean(aqi), long = mean(long), lat = mean(lat)) %>%
ggplot() +
  geom_polygon(aes(x = long, y = lat, group = group)

AQI 能够提供更全面的空气情况度量。站点上的点级 AQI 映射如下。因为 AQI 思考了许多典型污染物,因而与 PM2.5 的模式相比,AQI 的散布显示出不同的模式。

###aqi 指数
vi<- vi[class == "aqi",]
ggplot(vi) +
  geom_polygon(aes(x = long, y = lat, group = group)

论断

本报告利用了空气污染数据和 R 的可视化,从时空维度探讨了空气污染的散布和格局。从数据中能够辨认出 PM2.5 和 AQI 的时空变动。冬季和夏季均遇到空气污染问题。西部和南部的州比北部和东部的州更容易蒙受空气污染问题。

点击文末 “浏览原文”

获取全文残缺材料。

本文选自《R 语言空气污染数据的天文空间可视化和剖析:颗粒物 2.5(PM2.5)和空气质量指数(AQI)》。

点击题目查阅往期内容

上海无印良品天文空间散布特色与选址策略可视化钻研
R 语言空间可视化:绘制英国脱欧投票地图
R 语言在地图上绘制散点饼图可视化 r 语言空间可视化绘制道路交通安全事故地图
在 GIS 中用 ggmap 天文空间数据分析
tableau 的骑行路线天文数据可视化
R 语言推特 twitter 转发可视化剖析
618 电商大数据分析可视化报告
用 RSHINY DASHBOARD 可视化美国投票记录
python 主题 LDA 建模和 t -SNE 可视化
R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析案例报告
R 语言动态图可视化:如何、创立具备精美动画的图
Tableau 数据可视化:探索性图形剖析新生儿死亡率数据
R 语言动静可视化:制作历史寰球平均温度的累积动静折线图动画 gif 视频图

正文完
 0