关于数据挖掘:R语言改进Apriori关联规则挖掘研究西安PM25含量与天气因素关系数据可视化

11次阅读

共计 3635 个字符,预计需要花费 10 分钟才能阅读完成。

全文链接:http://tecdat.cn/?p=32284

原文出处:拓端数据部落公众号

随着社会的倒退,大数据 (big data) 一词越来越多地被提及,人们用它来形容和定义信息爆炸时代产生的海量数据,并命名与之相干的技术倒退与翻新。而大数据的意义并不在“大”,而在于“有用”。价值含量、开掘老本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为博得竞争的要害。

关联剖析又称关联开掘,就是在交易数据、关系数据或其余信息载体中,查找存在于我的项目汇合或对象汇合之间的频繁模式、关联、相关性或因果构造。或者说,关联剖析是发现交易数据库中不同商品(项)之间的分割。关联剖析是一个很有用的数据挖掘模型,可能帮忙企业、政府做很多有用的决策,而“基于大数据的天气状况钻研”目标是通过应用数据挖掘办法对某区域某段时间的天气情况和细颗粒物净化情况进行了剖析,钻研了细颗粒物净化水平与天气状况的关系,可视化出现了地区天气温度等的变化趋势,最初得出对民众生存具备参考价值的论断。

大数据时代,气象服务在一直地拓宽畛域,2012 年 12 月,绿色战争与北京大学公共卫生学院独特公布的《PM2.5 的衰弱危害和经济损失评估钻研》指出:PM2.5 净化对公众衰弱有致命危害。中国对 PM2.5 的浓度监测刚刚起步,对于 PM2.5 的起源、如何治理 PM2.5 的探讨也刚刚开始,PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因而通过剖析天气因素与 PM2.5 值的相关性,能够更好的理解以及管制 PM2.5 净化情况。

在这些美妙蓝图的背地,数据分析、数据挖掘技术失去了充沛的关注和钻研。但在现在的大数据背景下,海量数据只有在被正当采集、解读与表白之后能力完满展示它们的绮丽与深奥,而可视化则无疑是让数据变的亲切和便于了解的最无效的路径。只有在了解了数据可视化概念的实质之后,能力通过对其原理和办法进行钻研和正当使用,获取数据背地隐含的价值。

在天气状况状况钻研 的利用和钻研现状

随着寰球工业化过程的一直减速,工业污染日趋严重,各地气象灾祸频发,因而迫切需要对各类气象数据进行采集、解决和剖析,对气象灾祸进行预测和预警,缩小经济损失。大数据技术的倒退,使得解决海量、分布式的气象数据成为可能。国内硕士博士都进行着相干实践钻研。

# 工作概述

指标

PM2.5 作为在大气中存在着的污染物,它的含量与天气因素有关系,因而通过剖析天气与 PM2.5 值的相关性,能够更好的理解 PM2.5 净化情况。

在钻研 PM2.5 含量与天气因素关系时采纳了西安 PM 值与天气状况作为样本,通过应用数据挖掘软件 R 对上述取得的数据进行预处理、可视化剖析,从而失去对于天气状况和 PM2.5 值的关系剖析。

用户特点

该平台利用西安地区天气状况数据,尤其是 PM 值与天气因素的相关性,因而其次要用户为一般市民大众。PM2.5 是指大气中直径小于或等于 2.5 微米的颗粒物,PM2.5 被吸入人体后易引发包含哮喘、支气管炎和心血管病等方面的疾病。因而利用大数据来钻研天气因素与 PM2.5 值的相关性以及温度走向,能够更好的服务普通群众,给大众的生存和出行带来不便。

 

假设和束缚

为了得出 PM2.5 与天气状况(气温、风力风向等)的相关性剖析后果。首先要取得西安地区六个月的 PM2.5 数值与天气状况(气温、风力风向等)的数据. 在失去数据之后, 将数据导入到 R 软件中,实现数据的预处理和可视化后,采纳 Apriori 算法对数据进行关联规定剖析。为了将问题进一步简化,现作如下假如:

1、所查的数据均真实有效;

2、检测到的数据均为天气预报数据,疏忽当天天气的变动;

关联剖析

在钻研 PM2.5 含量与天气因素关系时采纳了西安的 PM 值与天气因素作为样本。通过应用数据挖掘软件 R 对上述取得的数据进行解决从而失去对于天气状况和 PM2.5 值的关系剖析。在本次钻研中,釆用了气温、天气情况(晴天,多云,阴天,雾天,小雪,雪天,雾霾,小雨,雨天)和风向(东风,东风,南风,北风,大风)作为选取的天气因素,将其与 PM2.5(以空气污染指数代替,分为优良,良好,轻微净化,轻度净化,中度净化,重度净化)一起作为数据挖掘对象。

原始数据

读取数据

x=**read.xlsx**("西安近 6 个月天气情况数据源.xlsx")

查看数据


**head**(x)

查看数据概述


**summary**(x)

改良算法 CRApriori

CRApriori=function(support,confidence){for(i in 1:2){(minlen=i,support=saxlen=i))  
**inspect**(frequentsets) *# 查看 i 项频繁项集 *  
*# 这里如果反对度选的比拟大,兴许没有 10 这么多,这里就不能写[1:10].*  
**inspect**(**sort**(frequentsets,by="support")[1:10]) *# 排序后查看 *  
*# 多选几次反对度阈值,更好的发现频繁模式。*  
fqout=**capture.output**(**inspect**(frequentsets)) *# 取得 i 项频繁项集 *  

for(ii in 1:**length**(data)){data[[ii]]=**intersect**(data[[ii]],fq3) *# 使用改良算法 CRApriori 删除事务集中不包含候选项集 Ci 即频繁 i - 1 项集 L(i-1),*  
}

parameter = **list**(sup,  
                                  target = "rules") )

查看模型后果关联规定概述

**summary**(rles)

按反对度查看前 6 条规定


**inspect**(**sort**(rusupport")[1:6]) 

按置信度查看前 6 条规定

**inspect**(**sort**(rules,bence")[1:6]) 

    FrequencyPlot**ex.names =0.8)   *# 数据画频繁项的图


#绘制不同规定图形来示意反对度,置信度和晋升度 *  
**plot**(rules,

通过该图能够看到 规定前项和规定后项别离有哪些天气情况 以及每个天气情况
的反对度大小,反对度越大则圆圈越大。

从该图能够看到反对度和置信度的关系,置信度越高晋升度也越高。

从该图能够看到反对度和置信度的关系,晋升度越高置信度也越高。


**plot**(rules, method=

参考资料

  •  危蓉. 基于大数据的天气状况钻研[A]. 湖北警官学院信息技术系,2015.
  •  李观松. 城市环境空气质量数据挖掘与可视化的钻研[D]. 山东大学计算机软件与实践,2007.
  •  曾悠. 大数据时代背景下的数据可视化概念钻研[D]. 浙江大学计算机科学与技术学院,2014.

最受欢迎的见解

1.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e7%94%…)Python 中的 Apriori 关联算法 - 市场购物篮剖析

2.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…)[](http://tecdat.cn/%e9%80%9a%e8%bf%87%e5%85%b3%e8%81%94%e8%a7%8…)R 语言绘制生存曲线预计 | 生存剖析 | 如何 R 作生存曲线图

3.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e5%a6%82%e4%bd%95%e5%9c%…)[](http://tecdat.cn/%e5%9f%ba%e4%ba%8er%e7%9a%84fp%e6%a0%91fp-gr…)用关联规定数据挖掘摸索药物配伍中的法则

4.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e4%b8%ad%e4%bd%bf%e7%94%…)通过 Python 中的 Apriori 算法进行关联规定开掘

5.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80%e7%94%9f%e5%ad%98%e5%88%…)用关联规定数据挖掘摸索药物配伍中的法则

6.[](http://tecdat.cn/r%e8%af%ad%e8%a8%80ggplot2%e8%af%af%e5%b7%ae…)采纳 SPSS Modeler 的 Web 简单网络对所有腧穴进行剖析

7.[](http://tecdat.cn/r-%e8%af%ad%e8%a8%80%e7%bb%98%e5%88%b6%e5%8a…)R 语言如何在生存剖析与 COX 回归中计算 IDI,NRI 指标

8.R 语言如何找到患者数据中具备差别的指标?(PLS—DA 剖析)

9.R 语言中的生存剖析 Survival analysis 早期肺癌患者 4 例

正文完
 0