-
在精算和保险行业,巨额风险的存在导致赔付分布具有厚尾现象.使用对数正态与帕累托或Burr分布构成的分布模型拟合丹麦火灾保险损失的研究可以见参考文献[1-3].该损失数据记录因火灾造成的包括建筑物、家具和个人财产以及利润损失的总和.实证结果显示,对数正态与Burr分布构成的分布拟合效果相对较优[3].对丹麦火灾保险损失的相关研究见参考文献[5-6].
本文使用含对数正态分布的对数广义误差分布与帕累托分布的混合拟合丹麦火灾保险损失数据.下面给出对数广义误差分布-帕累托分布的定义.随机变量X的密度函数具有如下形式:
其中:c>0,υ>0,σ>0,α>0,θ>0,则称该随机变量服从对数广义误差-帕累托分布,记为LogGED-Pareto分布.
若在门限θ处f(x)可微,则下面的结论成立:
(ⅰ) υ≠1且log θ>μ;
(ⅱ)
$ \frac{{{{\rm{e}}^{ - \frac{1}{2}{{\left( {\frac{{{\rm{log}}\;\theta - \mu }}{\sigma }} \right)}^{\upsilon - 1}}}}}}{{{2^{\frac{1}{\upsilon }}}\mathit{\boldsymbol{ \boldsymbol{\varGamma} }}(\upsilon )}} = {\left( {\frac{{{\rm{log}}\;\theta - \mu }}{\sigma }} \right)^{\upsilon - 1}} $ ;(ⅲ) 记
$ \frac{{{\rm{log}}\;\theta - \mu }}{\sigma } = k $ ,那么此时(1)式可以重新参数化为
其中k满足
记(1)式对应的分布函数为F(x),显然有
全文HTML
-
不失一般性,设来自总体的样本值满足x1≤x2…≤xn.记θ的取值在第m个样本值和第m+1样本值之间,即
那么样本个数为n的似然函数表达式为
使用极大似然方法估计参数. 一种方法是对每一个固定的υ值,找到使L(θ,α)最大化的α和θ的值.通过改变υ,最终找到使L(θ,α,υ)最大化的υ,α和θ的估计值. 另一种方法是先估计α[4],并得到门限θ的范围;再使用变动υ,估计θ,使得L(θ,
$ \widehat \alpha $ ,$ \widehat \upsilon $ )最大.估计α的算法[4]如下:
1) 设m为超过阈值θ的个数,记
$ k_0^ * = \left[{2{m^{\frac{2}{3}}}} \right] $ ;2) 令
$ \hat \gamma _n^H(k_0^*, m)= \frac{1}{{k_0^*}}\sum\limits_{i = 0}^{k_0^* - 1} {\log } \frac{{{X_{(n - i, n)}} - {X_{(n - m, n)}}}}{{{X_{(n - k_0^*, n)}} - {X_{(n - m, n)}}}} $ ;3) 计算k0的最优估计
$ {\widehat k_0} = {\left( {\frac{{{{\left( {1 + \widehat \gamma _n^H\left( {k_0^ *, m} \right)} \right)}^2}}}{{2\widehat \gamma _n^H\left( {k_0^ *, m} \right)}}} \right)^{\frac{1}{{2\widehat \gamma _n^H\left( {k_0^ *, m} \right)}}}}\; \cdot \;{k^{\frac{{2\widehat \gamma _n^H\left( {k_0^ *, m} \right)}}{{2\widehat \gamma _n^H\left( {k_0^ *, m} \right)+ 1}}}} $ ;4) 令
$ \widehat \gamma _n^H\left( {{{\widehat k}_0}, m} \right)= \frac{1}{{{{\widehat k}_0}}}\sum\limits_{i = 0}^{{{\widehat k}_0} - 1} {\log \;\frac{{{X_{(n - i, n)}} - {X_{(n - m, n)}}}}{{{X_{(n - {{\widehat k}_0}, n)}} - {X_{(n - m, n)}}}}} $ ;5) 修正
$ \widehat \gamma _n^H\left( {{{\widehat k}_0}, m} \right)= \widehat \gamma _n^H\left( {{{\widehat k}_0}, m} \right)- \sqrt {\frac{{\widehat \gamma _n^H({{\widehat k}_0}, m)}}{{2{{\widehat k}_0}}}} $ ,得$ {\widehat \alpha ^H} = \frac{1}{{\widehat \gamma _n^H\left( {\widehat k, m} \right)}} $ .
-
对丹麦火灾保险损失数据的拟合,使用R软件的宏包Stats中函数nlm完成极大似然估计. 对α的估计,使用上述算法完成Hill型估计.估计结果见表 1. 虽然参数估计值差异不大,但考虑后尾性,使用先估计尾部的方法应更可取一些.
下面进行LogGED-Pareto与Lognormal-Pareto的拟合比较. 由于Lognormal-Pareto为LogGED-Pareto的特殊情况,后者对丹麦火灾保险损失数据的拟合应比前者更精确. 可以通过使用皮尔逊的χ2检验和Kolmogorov与Smirnov的K-S检验进行验证. 两检验统计量的定义如下:
假设样本量为n的样本观测值可以分成k类,各自出现的频数分别为n1,n2,…,nk,且
$ \sum\limits_{i = 1}^k {{n_i} = 1} $ ,pi为拟合分布在i类上的概率值,i=1,2,…,k,则χ2检验统计量为:在显著水平为p的情形下,若χ2<
$ \chi _p^2\left( {k - 1 - s} \right)$ ,则拟合分布通过χ2检验,其中s为已估参数个数.记样本量为n的样本观测值对应的经验分布函数Fn(x),拟合分布函数为F(x),则单样本K-S检验的统计量为:
在显著水平为p的情形下,若Dn<D(n,p),则拟合分布通过K-S检验,其中D(n,p)为临界值.
使用统计检验方法对两种模型分别进行统计检验,检验结果见表 2.其中,在计算卡方值时将丹麦火灾保险数据以上限分别为1.25,1.75,2.25,2.75,3.25,3.75,4.25,4.75,5.25,5.75,6.25,∞进行分组[1].
由表 2知,在p值等于0.05的情况下,Lognormal-Pareto与LogGED-Pareto均通过拟合分布卡方检验(χ2(8)=15.507 3,χ2(9)=16.919 0).在p值等于0.05情况下,Lognormal-Pareto未通过K-S检验(D(n,p)=0.028).因此拟合丹麦火灾保险损失数据,使用对数广义误差与帕累托联合分布比使用对数正态与帕累托联合分布更加精确,这与直观的结果是相符的.