分享：贝叶斯copula的例子

前言：一家爱尔兰一家大型的汽车保险索赔数据。文章主要想研究的是几类保险之间的依赖关系，尤其是上尾部的依赖关系。从索赔严重性的角度考虑，剔除了没有索赔的保单，考察了五种保险产品之间的相关性。发现意外伤害（AD）与第三方财产损坏（PD）之间拥有最高的整体相关性和上尾相关性，因此文章对对AD和PD都提出了索赔的保单进行了分析，最后共有2098个数据。

文章强调了分析上尾相关性的逻辑：调查其尾部相关性的逻辑是，给定一个客户对两个类别提出索赔，一个风险中的大额索赔将反映另一个风险中可能的大额索赔，因此可以用来识别高风险客户、未来索赔准备金计算以及联合定价等方面。

数据：文章使用了7个变量分类，如下表所示：

分类变量

首先文章对索赔严重程度做了散点图：

索赔严重程度散点图

对上图的解释：这两种风险的索赔非常分散:许多人对单个风险的索赔额很大，有些人同时对两种风险提出了大量索赔。这表明，当有相对高的PD索赔时，也可能有相对高的AD索赔（右上方还是样本在的），这至少从某种程度上表明可能会存在上尾依赖。

限制样本范围后的散点图

对上图的解释：若将索赔严重程度限制在8000的范围内，则可以观察到更为密集的团簇，并且有很多样本靠近两轴，也就是说只有一类保险的索赔程度大，这些特征可以解释为什么整体依赖性很弱，并且依赖性结构具有异质性，可以通过混合的copulas来确定。

用贝叶斯方法估计上下尾相关系数

1、经验估计

边缘分布和copula均使用经验分布，用伪观测值，通过这种方法整合出的数据似乎不存在任何的特征，右上角和左下角都没有存在明显的聚集，如果上下尾相关性真的存在的话也只能说他们的相依性很弱。如下图所示：

经验估计

使用文中之前介绍的（2.1节中）描述的所有估计上下尾系数的估计量，结果如表15所示。不出所料，非参数经验估计给出了相对不稳定的结果，上尾系数的估计量在在0.081到0.164之间，下尾在在0.103到0.200之间。然而，从数据的散点图中，我们可以认为经验估计可能高估了TDCs。

经验估计结果

估算TDC对保险公司来说至关重要，因为例如，在考虑导致索赔额超过10，000或甚至超过100，000的灾难性事件时，尤其是在涉及爱尔兰保险公司数据中显示的身体伤害时，可以使用较高的TDC，TDC上限估计值相差0.1可能导致索赔准备金计算值相差数万欧元。

不稳定的经验估计也可能是由于真实数据集对于其尾部具有更复杂的依赖结构。此外，值得再次注意的是，经验估计不能考虑TDC可能不存在(即λ=0)的情况——在这种情况下以及TDC非常小的情况下(如果存在的话)，它们总是高估。因此，考虑模型不确定性的基于参数模型的估计可能为这个问题提供更好的解决方案。

2、全参数估计

使用全参数估计需要指定分量G和copula组合，这当然有好多好多种选择，文中用AIC方法来选择，发现当G=2的时候，大多数模型的AIC表现比较好。接下来选择拟合的copula模型，从9种中选择，一共是9*9=81种，文中列出了有非0权重的前12种组合。BIC用于计算每个组合的权重。

前12中非0权重的模型

从上表中可以看出，占主导地位的copula混合是Clayton和Frank组合，占模型权重的52%，这个组合的上尾相关性为0，但具有相对较强的下尾部依赖性，这与经验估计的结果一致。此外，最佳的12个模型具有彼此相对接近的BIC值，这表明模型不确定性是建模中要考虑的重要因素。在所有的12个模型中，有11个模型不是有上尾部依赖就是有下尾部依赖，或者两者都有，这表明尾部依赖现象确实存在，而经验估计则不能验证它的存在。

其实这个指定分量G的划分可以看作是一种聚类，G1把那些AD很大，PD小或者PD大，AD小的赔付聚集，无论是高斯copula还是frank copula，都包含了相对较大的赔付和另一个的较小赔付，而G2则大多包含的是AD和PD的中等赔付，就是数据中部的聚集部分。这种聚合是有意义的，因为分量1（G1）可以解释为噪声分量，它总是由不具有任何尾部相关性的Frank或Gaussian copula建模；而组件2是一个更灵活的组件，可以通过一个copula建模，该copula依赖于上尾部或下尾部，或者两者都依赖。

汇总方法1：

所有结果的加权平均。当把加权后的结果与最优的单个模型相比的时候，1、加权平均后的copula更接近经验估计值，但是单一的占比最大的模型低估了上尾相关性，实际上是存在的，然而被估计的很低。2、至少不会比单个未加权的更差。

汇总方法2：

不考虑经验估计量的缺点，结果表明，无论使用哪种非参数估计量，从BMA模拟数据集中估计的TDCs总是比从最佳拟合个体copula (Frank+Clayton混合)的模拟数据中估计的TDCs更接近(假设的)真实值(对于λUand，这可能位于[0.081，0.164]和[0.103，0.200]的范围内)。因此，可以得出结论，BMA方法更好地反映了数据的真实性质，即与原始数据集最相似，这是第二种方法的动机。

结论：

迄今为止，尾部相关性的经验估计是一种常见和流行的方法。尽管有时非参数估计可以给出精确的近似值，但大多数情况下不同的非参数经验copula估计提供了非常不同且不稳定的结果。因此，只能考虑一系列近似值或经验估计值的平均值。更重要的是，当尾部相关性较弱或不存在时，他们往往会高估系数。使用copula进行基于模型的估计，特别是调用BMA，基于对数据的拟合良好的copula产生更稳定的估计，同时考虑模型的不确定性和拟合优度。特别是，可以更精确地检测弱的或不存在的尾部依赖性。因此，BMA可被视为TDC的稳健参数估计程序，为保险索赔数据中存在的尾部依赖程度提供了有价值的见解。

分享：贝叶斯copula的例子

推荐阅读更多精彩内容