原文链接:http://tecdat.cn/?p=13854
原文出处:拓端数据部落公众号
本文为非人寿保险课程的一部分,该示例对1900 -2005年间的“ _美国标准化飓风损失_ ”数据集进行钻研(2008),咱们应用了狭义线性模型和帕累托散布Pareto distributions剖析。该数据集以xls格局提供,首先咱们来导入它,
数据导入和清理
> library(gdata)> db=read.xls(data.xls",sheet=1)
excel电子表格的问题在于某些列可能具备预先指定的格局(例如,损失为000,000,000格局)
> tail(db) Year Hurricane.Description State Category Base.Economic.Damage202 2005 Cindy LA 1 320,000,000203 2005 Dennis FL 3 2,230,000,000204 2005 Katrina LA,MS 3 81,000,000,000205 2005 Ophelia NC 1 1,600,000,000206 2005 Rita TX 3 10,000,000,000207 2005 Wilma FL 3 20,600,000,000 Normalized.PL05 Normalized.CL05 X X.1202 320,000,000 320,000,000 NA NA203 2,230,000,000 2,230,000,000 NA NA204 81,000,000,000 81,000,000,000 NA NA205 1,600,000,000 1,600,000,000 NA NA206 10,000,000,000 10,000,000,000 NA NA207 20,600,000,000 20,600,000,000 NA NA
要获取咱们能够应用的格局的数据,思考以下函数,
> stupidcomma = function(x){+ x=as.character(x)+ for(i in 1:10){x=sub(",","",as.character(x))}+ return(as.numeric(x))}
而后将这些值转换为数字,
> base=db\[,1:4\]> base$Base.Economic.Damage=Vectorize(stupidcomma)(db$Base.Economic.Damage)> base$Normalized.PL05=Vectorize(stupidcomma)(db$Normalized.PL05)> base$Normalized.CL05=Vectorize(stupidcomma)(db$Normalized.CL05)
从当初开始,这是咱们将应用的数据集,
> tail(base) Year Hurricane.Description State Category Base.Economic.Damage202 2005 Cindy LA 1 3.20e+08203 2005 Dennis FL 3 2.23e+09204 2005 Katrina LA,MS 3 8.10e+10205 2005 Ophelia NC 1 1.60e+09206 2005 Rita TX 3 1.00e+10207 2005 Wilma FL 3 2.06e+10 Normalized.PL05 Normalized.CL05202 3.20e+08 3.20e+08203 2.23e+09 2.23e+09204 8.10e+10 8.10e+10205 1.60e+09 1.60e+09206 1.00e+10 1.00e+10207 2.06e+10 2.06e+10
数据摸索
咱们能够直观地看到1900年至2005年的207次飓风的老本(这里的_x_轴不是工夫,它只是损失的指数)
> plot(base$Normalized.PL05/1e9,type="h",ylim=c(0,155))
通常,计算保险合同的纯保费时有两个局部。索赔数量(或此处的飓风)以及每项索赔的集体损失。咱们曾经看到了集体损失,当初让咱们集中探讨年度频率。
> db\[88:93,\] years counts88 2003 389 2004 690 2005 691 1902 092 1905 093 1907 0
均匀而言,咱们每年大概蒙受2次(次要)飓风,
> mean(db$counts)\[1\] 1.95283
狭义线性模型预测
在预测模型中(此处,咱们心愿为2014年的再保险合同定价),咱们可能须要思考飓风产生频率的某些可能趋势。咱们能够思考用glm预测线性趋势或指数趋势
咱们能够绘制这三个预测,并预测2014年(次要)飓风的数量,
constant linear exponential126 1.95283 3.573999 4.379822> points(rep((1890:2030)\[126\],3),prediction,col=c("black","red","blue"),pch=19)
察看到扭转模型将扭转纯正的溢价:如果预测不变,咱们预计飓风将少于2(次要),然而随着指数趋势的倒退,咱们预计将超过4。
这是预期的频率。当初,咱们应该找到一个适合的模型来计算再保险公约的纯保费,并具备(高)免赔额和无限(但大)赔付额。适合的模型是一个帕累托散布(见Hagstrœm(1925年)。
预计帕累托散布尾部指数
显然,次要飓风造成的损失惨重。
当初,思考一家领有5%市场份额的保险公司。咱们将思考\ tilde Y\_i = Y\_i / 20。损失如下。思考一个再保险公约,其免赔额为2(十亿),无限承保范畴为4(十亿),
对于咱们的帕累托模型,仅思考5亿美元以上的损失,
xi beta 0.4424669 0.6705315
八分之一的飓风达到了该程度
\[1\] 0.1256039
计算再保险合同的预期价值
鉴于损失超过5亿,咱们当初能够计算再保险合同的预期价值,
%5C%20dF_%7B(%5Cxi,%5Cmu,%5Csigma)%7D(x))
当初,咱们预计每年的飓风会少于2(次要)
> predictions\[1\]\[1\] 1.95283
每个飓风给咱们的保险公司带来超过5亿的损失的机率是12.5%,
> mean(base$Normalized.PL05/1e9/20>.5)\[1\] 0.1256039
并假如飓风造成的损失超过5亿美元,那么再保险公司的预期还款额(百万)
> E(2,6,gpd.PL\[1\],gpd.PL\[2\])*1e3\[1\] 330.9865
所以再保险合同的纯保费就是
\[1\] 81.18538
笼罩40亿,超过2个。