报告摘要
期货因子量化研究就是从品种通用的影响因素或品种特有的影响因素出发,定量分析该因素的收益水平及稳定性。
本文以展期收益率为例,提出了期货因子量化研究的六个步骤。通过因子加权收益和因子信息系数分析不同参数周期的表现,发现参数周期为20个交易日时效果最好,平均年化收益在11.4%左右,属于短周期的影响因素。
进一步对参数为20的因子数据进行单因子评价,分组收益方面每组的平均收益基本随着因子数值的增大呈现逐步递增。设计的因子加权的方式策略年化收益10%,最大回撤16.3%左右,符合高波动的特点。多空组合策略年化收益19.3%左右,做大回撤12.2%,效果优于因子加权的方式。对信息系数的稳定性进行分析发现,因子大部分时间都能保持较好的预测稳定性,但也存在季节性特征。
此外不同板块表现差异较大,农产品的分组收益最高而且区分度明显,工业品的分组收益并不符合预期的递增规律,能化品种只有最大和最小分组表现差异较大,金属品种的分组存在明显的界限综上分析,展期收益率整体上还是呈现较高的收益和稳定性,但是在不同板块间的差异较大,而且存在季节性的有效和失效规律,在进行策略设计时需要考虑该因子的这些特点。
报告正文
1
2020年和2021年,市场上大多数CTA策略收益表现都比较好。随着经济形势的转向以及政策层面对大宗商品的调控,商品期货市场的波动率将逐步下降,CTA策略的收益也将面临分化。期货因子量化研究就是从品种通用的影响因素或品种特有的影响因素出发,定量分析该因素的收益水平及稳定性。本文基于商品期货展期收益率这一数据特征,提出期货因子量化研究的思路。从概念定义、数据的分布规律、不同参数的表现、单因子的收益、信息系数、板块表现等方面进行分析,研究因子的效果和适用性。进而为量化策略的设计提供建议。
多因子模型的本质是将对多个证券资产的收益风险预测转变成对多个因子的收益风险预测,类似证券市场的多因素模型,期货市场由于品种数据的独特性,以及不同的品种分析逻辑的不同,期货因子量化研究主要包括以下几个步骤:
因子算法,是指基于期货市场的行情数据或品种基本面数据,使用时间序列的处理方式得到每个日期截面上品种的数值载荷。
因子数据,是指前述算法之后的数据,在进行消除量纲,统一数据获取的时间频率,使得不同品种之间得数据能有可比性。当数据分布差异较大时,还可以进行去极值、标准化等处理。
参数周期,是指一些因子计算方式涉及的时间跨度等参数,不同的参数周期代表着不同的影响效应,通常时间跨度涉及的参数分为短周期(20交易日以内)、中周期(20~60交易日)、长周期(60~120交易日)。
因子评价,是指从收益率、信息系数,综合评价因子的预测效果、预测稳定性。
品种有效性,是指对品种池分板块进行效果评价,或者使用动态品种剔除,分析因子在不同板块上的效果。
策略设计,是指通过上述步骤之后,加入更接近真实环境的回测条件,对投资组合进行回测分析。
我们选取2014年以来商品期货的主要品种作为分析基础,基本涵盖市场90%的成交量,能够较好地代表国内商品市场的整体表现。测试过程暂不考虑市场的合约切换、手续费、成交限制等因素,使用期货品种指数的日收益率作为收益计算的依据,以便快速计算得到测试数据。
2
(一)商品的期限结构
同一商品期货品种有多个不同到期日的期货合约,这些合约往往具有不同的价格,这种不同到期期限与期货价格的关系就是期限结构。商品的期限结构反映了期货价格的实际表现,综合提现了市场上的公开信息和投资者对未来的价格预期。如果近期价格高于远期价格,期货期限结构向下倾斜,这种情况称为期货贴水(Backwardation);如果远期价格高于近期价格,期货期限结构向上倾斜,这种情况称为期货升水(Contango)。Backwardation结构表明当前商品供需偏紧或者不足,这时候市场上的买方愿意为当下购买该商品支付更高的溢价,所以现货价格以及近月价格较高于远月合约。Contango结构表明商品供需过剩,即有较多的剩余库存,这部分库存需要在未来某个时刻卖出,从当下到未来卖出这段期间内,需要有一定的持仓成本,例如仓储费、资金成本等等。
(二)展期收益率的计算方法
我们使用展期收益率来衡量期限结构的倾斜程度,可以理解为将近月合约平仓并向后换月到远月合约。国际市场上,一般近月合约为主力合约,不管是工业品还是农产品,持仓分布相对均衡,除主力合约持仓较高外,其他月份合约也都有相当的持仓量,几乎所有挂牌合约都会成为主力。而国内大多数期货品种交易活跃集中在1、5、9月份,有色金属则每个月都会进行滚动切换。除了主力合约之外,其他月份合约的持仓量和成交量,只有次主力会相对较高,剩余的合约则流动性较差,通常主力和次主力的份额之和平均占到了95%,由此可见国内商品期货的成交和持仓集中度非常高。结合流动性与持仓的考虑,我们采用盘面滚动的主力合约及其随后的次主力合约,作为展期收益率计算中的近月合约与远月合约。
主力合约的定义:如果某合约持仓量连续2天为同一个品种中最大的(金融期货限定主力只从最近的两个合约中选取),且该合约相对于当前主力合约为远期合约,则变成下一交易日的主力合约。不在日内进行主力合约切换,持仓量出现反复时不进行回滚。展期收益率的计算公式:
其中P_(t,n)是t时刻近月合约的价格,P_(t,f)是t时刻远月合约的价格,T_(t,n)是近月合约交割日距离t时刻的剩余天数,T_(t,f)是远月合约交割日距离t时刻的剩余天数。采用对数收益率的计算方法,并通过两个合约到期时间的天数差异进行年化调整。
3
截止目前我国期货市场上市品种超过60多个,但部分品种由于投资门槛高、市场关注度低等原因成交低迷,在投资中应当尽量避免交易这些流动性严重缺乏的品种以防止换手困难。因此我们定期每周执行样本筛选,选择上市满60天且日均成交额大于10亿元的品种作为研究样本,根据当时的市场情况定期筛选符合的品种。从品种数量上看,基本覆盖市场主要投资品种。
根据公式定义,展期收益率数据是根据盘面不同月份合约价格计算得到的,选取不同参数计算展期收益率的平均值。参数周期一般分为短周期(20交易日左右)、中周期(60交易日左右)、长周期(120交易日左右),随着计算周期的增大,数据均值和标准差逐渐降低,因此需要考量不同参数周期的数据效果。
4
(一)因子加权收益
收益水平是评价因子效果的重要角度之一,通常使用当期收益率与因子水平进行回归得到的回归系数作为因子收益率。考虑到期货市场品种较少,线性回归的系数显著性并不稳定,我们使用因子加权构建的投资组合的收益率,作为收益水平的评价标准。
从数据结果上看,短周期和中周期的效果在大部分年份都要好于长周期参数下的水平。其中参数周期为20个交易日时效果最好,平均年化收益在11.4%左右,数据结果也是随着参数周期的增加而先增大后减小,规律性比较明显,因此后续的因子评价将选取短周期附近的参数进行详细分析。
(二)因子信息系数
在因子评价中,因子的IC值一般是指资产当期在因子上的暴露度与下一期的收益率的相关系数。因子IC值反映的是资产下期收益率和本期因子暴露度的线性相关程度,是使用该因子进行收益率预测的稳健性。得到各因子IC值序列后,IC序列大于零或小于零反应因子的方向,IC序列的标准差反应因子效果在时间序列上的稳定程度。
当期与下一期之间的时间间隔可以选择多种,比如对应日度调仓时使用T与T+1个交易日,对应周度调仓时使用T+5个交易日,对应月度调仓时使用T+20个交易日。此处用于评价不同周期参数下的因子效果,我们选用常见的周度调仓(T+5个交易日)作为因子IC计算的时间跨度,采用spearmanr方法,得到每年的IC平均水平如下表。
从数据结果上看,中周期以内的参数IC平均水平都在0.03左右,表明数据对于未来收益有一定的预测能力,其中短周期的数据IC水平较高。从时间维度来看,只有2019年期间长周期参数的IC高于中短周期,此外数据的年度水平差别较大,表明展期收益率因子在过往历史中存在阶段性失效的情况。
5
综合前面的分析,我们发现展期收益率的短周期(20交易日左右)效果比较明显,因此选取该参数下的数据进一步分析单因子的效果。
(一)分组收益的表现
判断因子收益表现和稳定的另一个角度是分组回测,依照因子值的大小对资产进行打分,构建投资组合进行回测。具体来说,在某个截面期上,可以根据一个或几个因子值对资产进行打分,将所有资产依照分数进行排序,分为𝑁个投资组合,进行回测。对于期货市场来说,基准组合可以选用综合商品指数或某一类商品指数,当测试品种池没有与之接近的指数时,也可以采用数据中品种等权得到的自定义指数。一般来说,对于比较有效的因子分成3~5层进行回测,各个投资组合的最终净值一般可以保序。分成𝑁层(𝑁 > 5)进行回测时,可以用最终净值的秩相关系数来衡量因子的优劣(秩相关系数的绝对值越接近1时效果越好)。
剔除流动性较差的品种之后,历史数据上看商品期货品种的数量相差较大,2014年入选的品种池只有25左右,2021年接近50个左右,因此我们选用5组进行测试。数据结果表明:每组的平均收益基本随着因子数值的增大呈现逐步递增的规律,而且对于品种因子值最小的分组平均收益为-2%左右,最大的分组平均收益为5%左右,表明展期收益率是个正向因子。但从历史序列上看,分层的区分度并不是很明显,2016年之后期货市场结束此前的下跌趋势,经历上涨和震荡之后市场也逐渐成熟,因子的有效性不断提高。
(二)投资组合的表现
基于截面因子构建投资组合主要有两种方式,一种是之前所述的因子加权方式,另一种是多空组合方式。因子加权方式就是根据每期因子大小确定投资组合中每个资产的权重最终得到的收益曲线,优势在于能够直观反映历史上因子的表现,收益曲线的评价指标可以用作表征每个阶段的因子效果。劣势在于没有对权重或资产分类进行权重限制,实际使用中容易面临尾部极端风险,也就是单个资产由于因子水平过高导致权重过大,发生极端行情时对投资组合的影响较大。
多空对冲的方式就是根据上述分组方式,做多因子值最大的一组和做空因子值最小的一组得到的投资组合。优势在于投资组合的单个资产权重相等,而且做多和做空的规模相等,较大程度上避免单品种尾部极端风险和净头寸暴露的风险。劣势在于所选品种依赖于分组参数的设定,只能覆盖部分品种,不能完全反映市场所有品种的因子效果。
从数据结果来看,两种方式均能取得较好的效果。其中因子加权的方式年化收益10%,最大回撤16.3%左右,符合高波动的特点。多空组合年化收益19.3%左右,做大回撤12.2%,效果优于因子加权的方式。
(三)信息系数的稳定性
信息系数作为评价因子预测能力的重要指标,除了观察整体均值水平之外,还需要分析期在时间序列上的稳定性。我们对于每个截面上IC数值计算每个月的均值,可以看到除了2020年之外,其余年份IC水平都在0.02以上,表明因子大部分时间都能保持较好的预测稳定性。从月度分布上看,因子表现较差的月份主要是年中的6月份、10月份和每年开始的1月份、2月份,因子表现也是存在季节性特征,和期货品种的阶段性行情规律比较接近。
5
相对证券市场而言,期货品种数量较少,并且板块的品种之间分析框架和交易逻辑的差异较大,可能并不适用于相同的因子,因此需要探讨不同品种和板块在的表现。我们将所有品种划分为金融、金属、工业、能化、农产、农副、其它工业、其它农产,本篇选取的是主要的品种进行测试,涉及品种分类如下。
从分组表现上看,农产品的分组收益最高而且区分度明显,显示出展期收益率在农产品期货定价上的有效性;工业品的分组收益并不符合预期的递增规律,表现出中间数据段分组的收益较高,这与工业品历史价格强趋势性走势有关;能化品种则表现相反,最大分组和最小分组的区分度明显,而中间分组的收益很接近;金属品种的分组存在明显的界限,最小两组收益为负其余分组收益为正,展期收益率的影响效果可能存在中间分界值,而非考虑在品种排名中的相对位置。
7
我们结合证券多因子模型以及期货市场本身的特点,提出了期货因子量化研究的六个步骤,并以展期收益率为例分析其在期货市场的表现。品种池方面定期每周执行样本筛选,研究标的基本覆盖市场主要投资品种,因子数据随着计算周期的增大,数据均值和标准差逐渐降低。通过因子加权收益和因子信息系数分析不同参数周期的表现,发现参数周期为20个交易日时效果最好,平均年化收益在11.4%左右,属于短周期的影响因素。
进一步对参数为20的因子数据进行分析,分组收益方面每组的平均收益基本随着因子数值的增大呈现逐步递增的规律,2016年之后期货市场结束此前的下跌趋势,经历上涨和震荡之后市场也逐渐成熟,因子的有效性不断提高。
通过构建因子加权和多空对冲两种投资组合,分析各自的优势和劣势,并进行效果统计,从数据结果来看,两种方式均能取得较好的效果,其中因子加权的方式年化收益10%,最大回撤16.3%左右,符合高波动的特点。多空组合年化收益19.3%左右,做大回撤12.2%,效果优于因子加权的方式。此外对信息系数的稳定性进行分析发现,因子大部分时间都能保持较好的预测稳定性,但也存在季节性特征,和期货品种的阶段性行情规律比较接近。
期货品种数量较少,并且板块的品种之间分析框架和交易逻辑的差异较大,需要探讨不同品种和板块在的表现。从分组表现上看,农产品的分组收益最高而且区分度明显,工业品的分组收益并不符合预期的递增规律,能化品种只有最大和最小分组表现差异较大,金属品种的分组存在明显的界限。
综上分析,展期收益率整体上还是呈现较高的收益和稳定性,但是在不同板块间的差异较大,而且存在季节性的有效和失效规律,在进行策略设计时需要考虑该因子的这些特点。