乐趣区

关于数据挖掘:R语言GGPLOT2绘制KOLMOGOROVSMIRNOV-KS检验图ECDF经验累积分布函数曲线可视化

原文链接:http://tecdat.cn/?p=24925 

Kolmogorov-Smirnov 是比拟一个频率散布 f(x) 与实践散布 g(x) 或者两个观测值散布的测验办法。其原假如 H0: 两个数据分布统一或者数据合乎实践散布。D=max| f(x)- g(x)|,当理论观测值 D >D(n,α) 则回绝 H0,否则则承受 H0 假如。
KS 测验与 t - 测验之类的其余办法不同是 KS 测验不须要晓得数据的散布状况,能够算是一种非参数检验办法。当然这样不便的代价就是当测验的数据分布合乎特定的散布事,KS 测验的灵敏度没有相应的测验来的高。在样本量比拟小的时候,KS 测验最为非参数检验在剖析两组数据之间是否不同时相当罕用。

Kolmogorov-Smirnov 测验长处和毛病

两样本 K - S 测验因为对两样本的教训散布函数的地位和形态参数的差别都敏感而成为比拟两样本的最有用且惯例的非参数办法之一。

长处:该测验不依赖于要测试的累积散布函数,相比于卡方拟合测验(卡方测验须要 50 个以上的样本),不须要大量的样本。

毛病:只实用于间断散布;在散布两头敏感,在两端不够敏感;最大的局限在于整个散布须要齐全确定,如果地位,形态等参数都是从数据中预计的,断定区间不再无效,因而这些参数个别只能通过模仿失去。

绘制 Kolmogorov-Smirnov 测验的 ECDF 曲线

绘制 Kolmogorov-Smirnov 测验的 ECDF 曲线以及散布之间的最大间隔(D)的一个疾速 R 例子。应用 ggplot2 和根底 R 绘图的例子 

require(ggplot2)
# 模仿两个散布 - 您的数据放在这里!norm(10000, 10, 5)
norm(10000, 1, 5)
dat <- data.frame
# 创立数据的 ECDF
cdf1 <- ecdf
cdf2 <- ecdf
# 找到最小和最大统计数据以在间隔最大的点之间画线
mnax <- seq              
x0 <- minMax\[which

你也能够嵌入绘图,例如。

ggplot +
     #geom_line
     geom_segment  +
     geom_point+
     geom_point+

非 ggplot 绘图示例 

######################### 非 ggplot 示例

## 交替,应用 ecdf 的规范 R 图
#plot
#lines

## 代替,向下到 x 轴
#segments

最受欢迎的见解

1.Matlab 马尔可夫链蒙特卡罗法(MCMC)预计随机稳定率(SV,Stochastic Volatility)模型

2. 基于 R 语言的疾病制图中自适应核密度估计的阈值抉择办法

3.WinBUGS 对多元随机稳定率模型:贝叶斯预计与模型比拟

4.R 语言回归中的 hosmer-lemeshow 拟合优度测验

5.matlab 实现 MCMC 的马尔可夫切换 ARMA – GARCH 模型预计

6.R 语言区间数据回归剖析

7.R 语言 WALD 测验 VS 似然比测验

8.python 用线性回归预测股票价格

9.R 语言如何在生存剖析与 Cox 回归中计算 IDI,NRI 指标

退出移动版