原文链接:http://tecdat.cn/?p=24067

此示例基于电视节目的在线收视率。咱们将从抓取数据开始。

# 加载软件包。packages <- c("gplot2", "MASS", "reshpe", "splnes",     "XML")

剖析的系列是亚伦·索尔金 (Aaron Sorkin) 的 _《_白宫风波_》_。

if (!fle.eiss(fie)) {    # 解析HTML内容。    html <- htmlPrse(lis?si=17ectn=a")    # 依据id抉择表格。    tml <- pahppl(html, //tal\[@d='Tle'\]"\[1\] ?    # 转换为数据集。    da <- reHTML(hml)    # 第一个数据行。    head(da )    # 保留本地正本。    write.csv(ata\[, -3\], fle)# 读取本地正本daa <- red.sv(fie)# 查看后果str(dat)

Mean 是每集的均匀评分,所以咱们有一个参数, Count 是每集的投票数,所以咱们有一个样本大小。应用标准误差方程,咱们将计算每个评分的“误差幅度”。请留神,因为有几集收视率十分高,因而收视率散布不失常。

# 计算季daa$saon <- 1 + (daX - 1)%/%22# 非凡状况at$sasn\[which(dta$sesn > 7)\] <- c(7, NA)# 因子变量daa$saon <- fator(aa$sesn)

咱们对数据采取的最初一步是增加季编号,以便当前可能在绘图上辨别它们。 除了两个特例(最初一季有 23 集,一个节目是电影特辑)外,_《_白宫风波_》_每一季 都有 22 集。咱们应用除以 22 的余数来计算季,修复非凡状况,并将变量合成为绘图目标。

# 计算季 asaon <- 1 + (aX - 1)%/%22#  非凡状况dtseson\[wich(dtsasn > 7)\] <- c(7, A)# 因子变量dtseson <- fctor(dasasn)

最初的图应用 95% 和 99% 的置信区间来可视化不确定性。

qlot(dta =dat, x = X, y = mu, clr =sasn, gem = "pont") +   genge(es(yin = u - 1.96\*se, ymx = u + 1.96\*se), alpa = .5) +  golie(as(yin =mu - 2.58\*se, yax = mu + 2.58\*e), apa = .5) +

该图对于每个节令的均匀收视率会更有用,这些收视率很容易用该ddply() 函数检索 。还计算了最小和最大集数,以便可能绘制每个节令的程度段。因为咱们将之前的绘图保留为 ggplot2 对象,因而增加线条只须要对额定的图形元素进行编码并将其增加到保留的元素之上。

# 计算季平均值。men <- dply(daa,.(easn), summrs,       ma = mean),       xmi= in(X,       xmx = ma(X)# 将平均值增加到绘图中。g + go_eme(daa = eas,                 as( xmin, max,  = mean, en= man))

变动点检测算法

如果您的指标是找到系列中的忽然变动,请应用变动点检测算法。

# PELT算法计算变动点。p <- tmean(atamu, 'PELT')# 提取后果。xmin <- c(0, max\[-legh(xmax)\])# 绘图。gem_segnt(dat = eg)

平滑算法:LOESS(部分加权回归)和三次样条

当初让咱们平滑这个系列。根本图都将应用雷同的数据,咱们将在其上叠加一条通过不同办法计算的趋势线。

# 绘图 plot(data           x = X,          y = mu,          alpa = I0.5),          gom = line")

平滑数据的最简略办法是应用部分多项式,咱们将其利用于每个节令的分数,而后利用于它们的去趋势值。更简单的平滑办法应用 splines 。它仅用于最初一个图中。

# 每一季的LOESS平滑   LOESS(se = FALSE) +   goln(y = tmu,neyp= dhe"+as(colo = sason)

# 对去趋势的数值进行LOESS平滑解决  smooth(se = FALSE) +   eoin(es =memu)), itype = ") +

# 立方样条g +   smooth( "m", ns(x, 8)

三次样条提供的信息与咱们从变动点检测中理解到的状况简直雷同:该系列有三个期间,是因为观众收视率的一次降落。

# 三次样条和变动点gmoth(method =  ~ ns(x, 8))


最受欢迎的见解

1.R语言多元Logistic逻辑回归 利用案例

2.面板平滑转移回归(PSTR)剖析案例实现剖析案例实现")

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型剖析案例

5.R语言混合效应逻辑回归Logistic模型剖析肺癌

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测