广义误差-帕累托分布及其在保险中的应用

马跃; 彭作祥

doi:10.13718/j.cnki.xdzk.2017.01.015

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

姓名不能为空！

邮箱

邮箱不能为空！非法的邮箱地址。

手机号码

电话不能为空！

请输入有效手机号!

标题

标题不能为空！

留言内容

内容不能为空！

验证码

验证码不能为空！

验证码错误！

广义误差-帕累托分布及其在保险中的应用

西南大学数学与统计学院，重庆 400715

基金项目: 国家自然科学基金项目(11171275); 重庆市自然科学基金项目(cstc2012jjA00029)

详细信息

作者简介:
马跃(1990-)，四川苍溪人，硕士研究生，主要从事极值统计分析的研究 .

通信作者: 彭作祥, 教授

中图分类号: O212.2

Modeling Actuarial Data with LogGED-Pareto Model

School of Mathematics and Statistics, SouthwestUniversity, Chongqing 400715, China

摘要: 使用LogGED-Pareto分布模型拟合丹麦火灾保险损失数据.结果表明LogGED-Pareto模型拟合结果优于使用Cooray和Ananda提出的Lognormal-Pareto模型.

Abstract: In this paper, we use LogGED-Pareto model to fit the Danish fire insurance data.The results show that the logGED-Pareto model is better than the Lognormal-Pareto model proposed by Cooray and Ananda.

Key words:

估计法

$ \widehat \upsilon $

$ \widehat \alpha $

$ \widehat \theta $

对数似然函数值

Hill型估计

2.411

$ {\widehat \alpha _{\rm{H}}} $=1.334 947

1.436 042

-3 875.245 298

极大似然估计

2.316 056

$ {\widehat \alpha _{{\rm{ML}}}} $=1.403 441

1.409 483

-3 872.073 628

分布

参数估计

对数似然函数

K-S

卡方值

Lognormal-Pareto

$ \widehat \theta $=1.385 128，$ \widehat \alpha $=1.436 332

-3 877.844 425

0.028 7

12.488

LogGED-Pareto(ML)

$ \widehat \upsilon $=2.316 056，$ \widehat \theta $=1.409 483，$ \widehat \alpha $=1.403 441

-3 872.073 628

0.025 8

10.428 7

LogGED-Pareto(H)

$ \widehat \upsilon $=2.411，$ \widehat \theta $=1.436 042，$ \widehat \alpha $=1.334 947

-3 875.245 298

0.026 5

12.951 7

广义误差-帕累托分布及其在保险中的应用

通信作者: 彭作祥, 教授

作者简介: 马跃(1990-)，四川苍溪人，硕士研究生，主要从事极值统计分析的研究
西南大学数学与统计学院，重庆 400715

收稿日期: 2015-07-18

基金项目: 国家自然科学基金项目(11171275); 重庆市自然科学基金项目(cstc2012jjA00029)

关键词:

摘要: 使用LogGED-Pareto分布模型拟合丹麦火灾保险损失数据.结果表明LogGED-Pareto模型拟合结果优于使用Cooray和Ananda提出的Lognormal-Pareto模型.

全文HTML

在精算和保险行业，巨额风险的存在导致赔付分布具有厚尾现象.使用对数正态与帕累托或Burr分布构成的分布模型拟合丹麦火灾保险损失的研究可以见参考文献[1-3].该损失数据记录因火灾造成的包括建筑物、家具和个人财产以及利润损失的总和.实证结果显示，对数正态与Burr分布构成的分布拟合效果相对较优^[3].对丹麦火灾保险损失的相关研究见参考文献[5-6].

本文使用含对数正态分布的对数广义误差分布与帕累托分布的混合拟合丹麦火灾保险损失数据.下面给出对数广义误差分布-帕累托分布的定义.随机变量X的密度函数具有如下形式：

其中：c＞0，υ＞0，σ＞0，α＞0，θ＞0，则称该随机变量服从对数广义误差-帕累托分布，记为LogGED-Pareto分布.

若在门限θ处f(x)可微，则下面的结论成立：

(ⅰ)  υ≠1且log θ＞μ；

(ⅱ)  $ \frac{{{{\rm{e}}^{ - \frac{1}{2}{{\left( {\frac{{{\rm{log}}\;\theta - \mu }}{\sigma }} \right)}^{\upsilon - 1}}}}}}{{{2^{\frac{1}{\upsilon }}}\mathit{\boldsymbol{ \boldsymbol{\varGamma} }}(\upsilon )}} = {\left( {\frac{{{\rm{log}}\;\theta - \mu }}{\sigma }} \right)^{\upsilon - 1}} $；

(ⅲ)  记$ \frac{{{\rm{log}}\;\theta - \mu }}{\sigma } = k $，那么

此时(1)式可以重新参数化为

其中k满足

记(1)式对应的分布函数为F(x)，显然有

1. 参数估计

不失一般性，设来自总体的样本值满足x₁≤x₂…≤x_n.记θ的取值在第m个样本值和第m+1样本值之间，即

那么样本个数为n的似然函数表达式为

使用极大似然方法估计参数. 一种方法是对每一个固定的υ值，找到使L(θ，α)最大化的α和θ的值.通过改变υ，最终找到使L(θ，α，υ)最大化的υ，α和θ的估计值. 另一种方法是先估计α^[4]，并得到门限θ的范围；再使用变动υ，估计θ，使得L(θ，$ \widehat \alpha $，$ \widehat \upsilon $)最大.

估计α的算法^[4]如下：

1)  设m为超过阈值θ的个数，记$ k_0^ * = \left[{2{m^{\frac{2}{3}}}} \right] $；

2)  令$ \hat \gamma _n^H(k_0^*, m)= \frac{1}{{k_0^*}}\sum\limits_{i = 0}^{k_0^* - 1} {\log } \frac{{{X_{(n - i, n)}} - {X_{(n - m, n)}}}}{{{X_{(n - k_0^*, n)}} - {X_{(n - m, n)}}}} $；

3)  计算k₀的最优估计$ {\widehat k_0} = {\left( {\frac{{{{\left( {1 + \widehat \gamma _n^H\left( {k_0^ *, m} \right)} \right)}^2}}}{{2\widehat \gamma _n^H\left( {k_0^ *, m} \right)}}} \right)^{\frac{1}{{2\widehat \gamma _n^H\left( {k_0^ *, m} \right)}}}}\; \cdot \;{k^{\frac{{2\widehat \gamma _n^H\left( {k_0^ *, m} \right)}}{{2\widehat \gamma _n^H\left( {k_0^ *, m} \right)+ 1}}}} $；

4)  令$ \widehat \gamma _n^H\left( {{{\widehat k}_0}, m} \right)= \frac{1}{{{{\widehat k}_0}}}\sum\limits_{i = 0}^{{{\widehat k}_0} - 1} {\log \;\frac{{{X_{(n - i, n)}} - {X_{(n - m, n)}}}}{{{X_{(n - {{\widehat k}_0}, n)}} - {X_{(n - m, n)}}}}} $；

5)  修正$ \widehat \gamma _n^H\left( {{{\widehat k}_0}, m} \right)= \widehat \gamma _n^H\left( {{{\widehat k}_0}, m} \right)- \sqrt {\frac{{\widehat \gamma _n^H({{\widehat k}_0}, m)}}{{2{{\widehat k}_0}}}} $，得$ {\widehat \alpha ^H} = \frac{1}{{\widehat \gamma _n^H\left( {\widehat k, m} \right)}} $.

2. 丹麦火灾保险损失数据分析

对丹麦火灾保险损失数据的拟合，使用R软件的宏包Stats中函数nlm完成极大似然估计. 对α的估计，使用上述算法完成Hill型估计.估计结果见表 1. 虽然参数估计值差异不大，但考虑后尾性，使用先估计尾部的方法应更可取一些.

下面进行LogGED-Pareto与Lognormal-Pareto的拟合比较. 由于Lognormal-Pareto为LogGED-Pareto的特殊情况，后者对丹麦火灾保险损失数据的拟合应比前者更精确. 可以通过使用皮尔逊的χ²检验和Kolmogorov与Smirnov的K-S检验进行验证. 两检验统计量的定义如下：

假设样本量为n的样本观测值可以分成k类，各自出现的频数分别为n₁，n₂，…，n_k，且$ \sum\limits_{i = 1}^k {{n_i} = 1} $，p_i为拟合分布在i类上的概率值，i=1，2，…，k，则χ²检验统计量为：

在显著水平为p的情形下，若χ²＜$ \chi _p^2\left( {k - 1 - s} \right)$，则拟合分布通过χ²检验，其中s为已估参数个数.

记样本量为n的样本观测值对应的经验分布函数F_n(x)，拟合分布函数为F(x)，则单样本K-S检验的统计量为：

在显著水平为p的情形下，若D_n＜D(n，p)，则拟合分布通过K-S检验，其中D(n，p)为临界值.

使用统计检验方法对两种模型分别进行统计检验，检验结果见表 2.其中，在计算卡方值时将丹麦火灾保险数据以上限分别为1.25，1.75，2.25，2.75，3.25，3.75，4.25，4.75，5.25，5.75，6.25，∞进行分组^[1].

由表 2知，在p值等于0.05的情况下，Lognormal-Pareto与LogGED-Pareto均通过拟合分布卡方检验(χ²(8)=15.507 3，χ²(9)=16.919 0).在p值等于0.05情况下，Lognormal-Pareto未通过K-S检验(D(n，p)=0.028).因此拟合丹麦火灾保险损失数据，使用对数广义误差与帕累托联合分布比使用对数正态与帕累托联合分布更加精确，这与直观的结果是相符的.

参考文献 (7)

[1]	COORAY K, ANANDA, M A. Modeling Actuarial Data with a Composite Lognormal-Pareto Model [J]. Scandinavian Actuarial Journal, 2005, 2005(5): 321-334. doi: 10.1080/03461230510009763
[2]	SCOLLNIK D. On Composite Lognormal-Pareto Models [J]. Scandinavian Actuarial Journal, 2007, 2007(1): 20-33. doi: 10.1080/03461230601110447
[3]	doi: http://www.tandfonline.com/doi/abs/10.1080/03461238.2012.695748?journalCode=sact20 NADARAJAH S, BAKAR S. New Composite Models for the Danish Fire Insurance Data [J]. Scandinavian Actuarial Journal, 2012, 2014(2): 1-8.
[4]	ALVES M L F. A Location Invariant Hill-type Estimator [J]. Extremes, 2001, 4(3): 199-217. doi: 10.1023/A:1015226104400
[5]	RESNICK S I. Discussion of the Danish Data on Large Fire Insurance Losses [J]. Astin Bulletin, 1997, 27(1): 139-151. doi: 10.2143/AST.27.1.563211
[6]	PIGEON M, DENUIT M. Composite Lognormal-Pareto Model with Random Threshold [J]. Scandinavian Actuarial Journal, 2011, 2011(3): 177-192. doi: 10.1080/03461231003690754
[7]	doi: https://www.researchgate.net/publication/255626258_A_Generalized_Error_Distribution VASUDEVAY R, KUMARI J V. On General Error Distributions [J]. ProbStat Forum, 2013, 6(10): 89-95.

留言板