Copula函数对金融资产尾部相关性分析
目录
简介
尾部相关系数
Copula函数
Copula函数的参数估计
Copula函数对金融资产的相关性分析
最大分散化投资组合(MaxDiversification)
最小尾部依赖投资组合(Minimum Tail Dependence)
模型回测
简介
资产配置的核心目标之一是降低投资组合风险,而资产间相关性分析在其中扮演着不可或缺的角色。在众多的资产中,如果我们配置相关性尽可能低的资产,那么可以使投资组合的风险尽可能的低,所以深度地去理解不同衡量关联性的方法可以加强对资产相关性的判断。
相关系数(Pearson相关系数)是最常见的衡量相关性的方法,在一般的资产配置模型(如马科维茨、风险平价、风险预算、BL模型)中,都是用的此相关系数来衡量资产的相关性。但此相关系数虽然有优点突出,但其有很多缺点。具体如下:
优点:Pearson相关系数使模型在数学推导上极其的完美。
缺点:
1、Pearson相关系数是一种线性相关的度量,不能刻画非线性相关关系。
2、Pearson相关系数是刻化整体的相关性,但是金融模型中,一般关心的是尾部的相关性,从而可以求出资产组合的尾部风险。
在资产配置中,Pearson相关系数的第二个缺点是非常重要的。真对这两个缺点,我们可以引入Copula函数,来计算多个随机变量的尾部相关性,从而求得资产组合的尾部风险。
尾部相关系数
在衡量组合的风险时,我们需要定义出资产间尾部的相关性,从而配置尾部相关性低的资产,来降低组合的尾部风险。通常我们定义尾部相关系数如下(以二元问题为例):
尾部相关系数可以理解为在给定 X 是一个较大或者较小值时,观察到一个较大或者较小 Y 值的概率。说明上尾相关,说明
下尾相关。
所以,我们要求出资产间的联合分布才能求出尾部的相关系数。如何又每个资产的分布求出所有资产的联合分布,这就用到了Copula函数。Copula函数可以完美的将单个随机变量的分布当成边际分布合成联合分布。
Copula函数
Copula函数是由Sklar(1959)首次提出,可以在McNeil等(2005)中找到更详细的解释, 该函数可以理解为相依函数或者连接函数,它是把多维随机变量的联合分布用其一维边际分布连接起来的工具。
Sklar定理(以二元为例)
若H(x,y)是一个具有连续边缘分布的F(x)与G(y)的二元联合分布函数,那么存在唯一的Copula函数,使得 :
反之,如果是一个copula函数,而 F(x)与G(y)是两个任意的概率分布函数,那么由上式定义的H(x,y) 函数一定是一个联合分布函数,且对应的边缘分布刚好就是 F(x)与G(y) 。
由Sklar定理,我们可以把多个随机变量一维的各个分布当成边际分布,构造这些随机变量的联合分布。在资产配置里面,我们将两个资产的收益率当成随机变量,先统计出两个随机变量的分布,再根据Sklar定理,得到这两个随机变量的联合分布。有了联合分布,我们可以讨论两个随机变量的尾部关联性,从而得到资产组合的尾部分析。
所以,求解Copula函数变得至关重要。
显然我们不能从公式出发来求解。因为我们不知道联合分布。我们需要从其他途径求出此函数。庆幸的是,我们可以从其他途径求出Copula函数。
在数学上,只要满足以下三条性质的函数就可以当做Copula函数。(以二元函数为例)
1、此二元函数是[0,1]X[0,1]到[0,1]的映射。
2、,
3、,
或者
所以我们只需要找到满足上面三个性质的函数即可,在实际应用中,有两类Copula函数最常用,一类是椭圆Copula函数族,一类是阿基米德Copula函数族。
椭圆Copula函数族常用的有两种,一是Gaussian Copula,一是Student’s t Copula。
椭圆Copula函数
椭圆Copula函数均有对称的尾部相关性,在中心区域差别不大,差别主要体现在尾部的厚度。本文主要介绍高斯Copula函数和Student’s t Copula函数。
高斯Copula函数
高斯copula是从多元正态分布 通过概率积分变换得到的。对于一个给定的相关系数矩阵 ,基于参数矩阵R的高斯Copula可以表达成:
其中,是标准正态分布的逆累积分布函数,为多元正态分布的联合累积分布函数,它的均值向量为0.,协方差矩阵为R。
Student’s t Copula函数
Student’s t Copula是从多元t分布 通过概率积分变换得到的。对于一个给定的相关系数矩阵 ,自由度为N,基于参数矩阵R和N的Student’s t Copula 可以表达成:
其中R是相关系数矩阵、N是自由度,是 t
分布函数的逆函数。
阿基米德 Copula 函数
阿基米德 Copula 函数具有非对称的尾部相关性,最常见的有Clayton Copula函数和Gumbel Copula函数。
Clayton Copula函数(以二元为例)
Clayton Copula函数,是相关参数,,数值越大相关性越大:
Gumbel Copula函数(以二元为例)
Gumbel Copula函数,是相关参数,,数值越大相关性越大:
下面用R程序分别给出高斯Copula函数、Student’s t Copula函数、Clayton Copula函数、Gumbel Copula函数的概率密度函数(PDF)的图像。并且使用4种copula函数对任意的分布合成联合分布,最后给出模拟数据。
###############################################################################
#############--------------- MyCopula.R ------------################
###############################################################################
#
# Des:
# Ref:
#
# Team : AI Team
# Author: Ding Weijie
# Email : 380666903@qq.com
# Date : 2021-03-09
###
#引入copula包
library(copula)
library(psych)
library(VineCopula)
#随机生成数据集
X_1 <- runif(100, 0, 100)
X_2 <-X_1+ runif(100, 0, 50)
#初步研究两个数据的关系
plot(X_1,X_2)
abline(lm(X_2~X_1),col='red',lwd=1)
cor(X_1,X_2,method='spearman')
#以下4行代码是Copula函数的非参数估计,在不知道哪一个Copula函数下使用。
#u <- pobs(as.matrix(cbind(X_1,X_2)))[,1]
#v <- pobs(as.matrix(cbind(X_1,X_2)))[,2]
#selectedCopula <- BiCopSelect(u,v,familyset=NA)
#selectedCopula
#将数据映射到累计概率分布值上,因为copula函数的自变量是对应边际分布的累计概率分布值。这个量是服从[0,1]上的均匀分布的。
##########################################################################################
#高斯Copula函数
gaussian.cop <- normalCopula(dim=2) # 生成二维高斯Copula函数
set.seed(500)
#使用pobs函数将数据映射到累计概率分布值上,因为copula函数的自变量是对应边际分布的累计概率分布值。这个量是服从[0,1]上的均匀分布的。
m <- pobs(as.matrix(cbind(X_1,X_2)))
fit <- fitCopula(gaussian.cop,m,method='ml')#用数据集拟合高斯Copula函数,对其参数进行估计
# 获得参数估计
coef(fit)
rho <- coef(fit)[1]
#画出拟合后的联合概率密度函数
persp(normalCopula(dim=2,rho),dCopula)
#画出拟合后的联合概率密度函数在二维的投影。
u <- rCopula(3965,normalCopula(dim=2,rho))
plot(u[,1],u[,2],pch='.',col='blue')
#使用以上高斯copula函数,对数据的分布进行联合(这里假设原始数据的分布是付出正太分布的)。
cor(u,method='spearman')
X_1_mu <- mean(X_1)
X_1_sd <- sd(X_1)
X_2_mu <- mean(X_2)
X_2_sd <- sd(X_2)
copula_dist <- mvdc(copula=normalCopula(rho,dim=2), margins=c("norm","norm"),
paramMargins=list(list(mean=X_1_mu, sd=X_1_sd),
list(mean=X_2_mu, sd=X_2_sd)))
# 对联合后的分布,进行模拟,生成模拟数据,并与远数据比较。
sim <- rMvdc(3965,copula_dist)
plot(X_1,X_2,main='relation')
points(sim[,1],sim[,2],col='red',pch='.')
legend('bottomright',c('Observed','Simulated'),col=c('black','red'),pch=21)
##########################################################################################
t.cop <- tCopula(dim=2)
set.seed(500)
m <- pobs(as.matrix(cbind(X_1,X_2)))
fit <- fitCopula(t.cop,m,method='ml')
coef(fit)
rho <- coef(fit)[1]
df <- coef(fit)[2]
persp(tCopula(dim=2,rho,df=df),dCopula)
u <- rCopula(3965,tCopula(dim=2,rho,df=df))
plot(u[,1],u[,2],pch='.',col='blue')
cor(u,method='spearman')
X_1_mu <- mean(X_1)
X_1_sd <- sd(X_1)
X_2_mu <- mean(X_2)
X_2_sd <- sd(X_2)
copula_dist <- mvdc(copula=tCopula(rho,dim=2,df=df), margins=c("norm","norm"),
paramMargins=list(list(mean=X_1_mu, sd=X_1_sd),
list(mean=X_2_mu, sd=X_2_sd)))
sim <- rMvdc(3965,copula_dist)
plot(X_1,X_2,main='relation')
points(sim[,1],sim[,2],col='red',pch='.')
legend('bottomright',c('Observed','Simulated'),col=c('black','red'),pch=21)
##########################################################################################
clayton.cop <- claytonCopula(dim=2)
set.seed(500)
m <- pobs(as.matrix(cbind(X_1,X_2)))
fit <- fitCopula(clayton.cop,m,method='ml')
coef(fit)
alpha <- coef(fit)[1]
persp(claytonCopula(dim=2,alpha),dCopula)
u <- rCopula(3965,claytonCopula(dim=2,alpha))
plot(u[,1],u[,2],pch='.',col='blue')
cor(u,method='spearman')
X_1_mu <- mean(X_1)
X_1_sd <- sd(X_1)
X_2_mu <- mean(X_2)
X_2_sd <- sd(X_2)
copula_dist <- mvdc(copula=claytonCopula(dim=2,alpha), margins=c("norm","norm"),
paramMargins=list(list(mean=X_1_mu, sd=X_1_sd),
list(mean=X_2_mu, sd=X_2_sd)))
sim <- rMvdc(3965,copula_dist)
plot(X_1,X_2,main='relation')
points(sim[,1],sim[,2],col='red',pch='.')
legend('bottomright',c('Observed','Simulated'),col=c('black','red'),pch=21)
##########################################################################################
gumbel.cop <- gumbelCopula(dim=2)
set.seed(500)
m <- pobs(as.matrix(cbind(X_1,X_2)))
fit <- fitCopula(gumbel.cop,m,method='ml')
coef(fit)
alpha <- coef(fit)[1]
persp(gumbelCopula(dim=2,alpha),dCopula)
u <- rCopula(3965,gumbelCopula(dim=2,alpha))
plot(u[,1],u[,2],pch='.',col='blue')
cor(u,method='spearman')
X_1_mu <- mean(X_1)
X_1_sd <- sd(X_1)
X_2_mu <- mean(X_2)
X_2_sd <- sd(X_2)
copula_dist <- mvdc(copula=gumbelCopula(dim=2,alpha), margins=c("norm","norm"),
paramMargins=list(list(mean=X_1_mu, sd=X_1_sd),
list(mean=X_2_mu, sd=X_2_sd)))
sim <- rMvdc(3965,copula_dist)
plot(X_1,X_2,main='relation')
points(sim[,1],sim[,2],col='red',pch='.')
legend('bottomright',c('Observed','Simulated'),col=c('black','red'),pch=21)
程序结果:
1、数据集分布
2、高斯Copula函数
3、t Copula函数
4、Clayton Copula 函数
5、Gumbel Copula函数
有了Copula函数,结合尾部相关系数的定义,我们可以求各种Copula函数下的出尾部相关系数。如下:
由上面的公式可以看出,对于高斯Copula函数和t Copula函数,其尾部相关系数的是对称的。且高斯Copula对变量间尾部相关的变化没有那么敏感,相比之下t Copula函数求得的尾部相关系数,可以很好的捕捉尾部间的相关关系。Gumbel Copula 对资产间的上尾相关变化较为敏感, 而 Clayton Copula 则对资产间的下尾相关变化较为敏感。由于金融资产要衡量的是资产间的尾部依赖性,因此在衡量资产组合尾部风险时选用下尾特征明显的 Clayton Copula 进行拟合并计算相关系数。
将Clayton Copula函数和Gumbel Copula函数代入上公式,得到:
至此,我们就找到了衡量资产间的尾部风险的相关系数---Clayton Copula 函数下定义的尾部相关系数。(当然牛市的时候,我们可以用Gumbel Copula 定义的尾部相关系数找资产间的尾部相关性)
Copula函数的参数估计
与其他参数估计一样,使用最经典的极大似然估计的方法(Canonical Maximum Likelihood Estimation),不对边缘分布的参数做出假设,直接使用样本的经验分布,求以下最优化问题:
其中:为边际分布中的参数,H是四种Copula函数名称,c是密度函数,T为要联合的边际分布个数。
对于Clayton Copula 函数,上式就变为:
以上就是Copula函数的参数估计方法。
特别的,对于 Copula 函数的参数估计,Archimedean 函数族有一个特性,即该族的 Copula 函数参数可以由 kendall 秩相关系数推算而得,从而简化了计算量。关系如下:
其中为 kendall 秩相关系数。
Copula函数对金融资产的相关性分析
本位以格力电器和美的电器的2014年1月1日以来的股票日收益率为数据,研究两者之间的相关关系。
首先进行简单的数据分析,得到两皮尔逊相关系数为:0.7439301。kendall秩相关系数为 0.5627232 两者的关系图如下:
由这个图可以看出,图的右上部分,两者的相关性很弱,中间和左下部分相关性比较强,所以,我们使用Clayton Copula 函数来研究两者的下尾相关性,也就是研究两者在大跌时的相关性。
使用上面R程序代码,对Clayton Copula 函数参数进行估计,得到:。 此参数和kendall相关系数求出来的差别不大。
对联合分布模拟数据得到:
我们取0.05,定义0.05分位数以下是尾部。
代入下尾相关系数的公式,我们可以求出美的集团和格力电器的下尾尾部相关系数。
所以,我们就求得了美的集团和格力电器的下尾尾部相关性。有了下尾尾部相关性,我们在配置资产时,需要保证配置的资产在尾部相关性比较低,因为这样当发生大跌事件时,我们的组合风险才能分散,不至于大跌。
最大分散化投资组合(MaxDiversification)
这一模型和之前的风险平价和风险预算不一样,虽然追求的也是风险的分散,但是使用方法和思想不一样。
如果两个资产x,y的完全正相关,也就是y=kx,那么有:
cor(x,y)=1
所以根据资产组合的波动率公式,如果资产x,y的配置权重为,有:
当n个资产时,上面的公司就变为:
所以,当配置的资产之间完全正相关时,组合的风险就是各资产的加权后。
当配置的资产之前不完全正相关时,组合的波动率为:
其中为资产间协方差矩阵,W为资产配置权重向量。
每个基础投资组合加权平均波动率与整体投资组合波动率之间的比值越大,说明我们配置的组合越分散。
所以最大分散化投资组合模型就是最大化以上两个比值(这一比率被称为分散化比率DR,越大说明投资分散化),即:
在上面的公式中,分子是资产波动率的加权之和,分母是投资组合的总波动 率(考虑了资产之间的相关性)。分子与分母之间的本质区别是相关系数,而为了 极大化该比率,必须最小化包含相关性的分母。这种分配方法试图选择使资产之 间的相关性最小化的资产,从而达到最大化分散度(比如如果完全正相关,则目 标函数结果为 1)。
以上最优化问题,并不是二次优化,所以可以先转化成如下最优化问题。
我们这里想办法把分母变成1.
我们假设一种资产Y,这种资产Y是资产X和现金Cash的配置组合,我们把Y配置成一个风险(标准差)为1的资产。
我们如下配置:
所以:
所以,我们对资产Y实行最大分散化投资模型,则原问题变成如下问题:
其中:是配置资产Y的权重,P是资产Y的协方差矩阵,因为资产Y中有,所以P也是Y的相关系数矩阵。
这一问题就是一个典型的凸二次优化问题。很好求解。
求解出后,我们带入:
看到X的权重为:
因为Y中有配置的现金的权重,所以的权重的和不等于1.
还要对其归一化,最后求解权重:
所以以上就是最大化分散模型。
最小尾部依赖投资组合(Minimum Tail Dependence)
不论是在上面的资产配置模型中,还是在风险平价、风险预算、BL模型中研究资产间相关性时,使用的都是皮尔逊相关系数,这种相关系数,是研究数据整体的相关性,在资产配置时,有时更注重的是尾部相关性,分散组合的尾部风险。
所以我们可以将上面模型改造,将使用的皮尔逊相关系数,修改成下尾尾部相关系数,使用Clayton Copula 函数求解下尾尾部相关系数。这就是最小尾部依赖投资组合(Minimum Tail Dependence)。
其模型为:
其中:是配置资产Y的权重,T是资产Y的尾部相关系数矩阵。
求解方法与上面一样,唯一不一样的是,T是根据Clayton Copula 函数求出的尾部相关系数矩阵。
模型回测
这里使用沪深300指数和中债国债总值财富指数2017年以来的数据,对这两个资产进行配置,一年一调仓,从而对以上两个模型进行回测。
根据模型生成调仓策略如下。
模型回测净值曲线如下:
回测指标如下:
由回测结果,我们可以得到,利用尾部的相关系数代替皮尔逊相关系数对配置是有正向的帮助的。