基本术语解释
- 平均AUC:
- 伪阳性率(FPR):判定为正例却不是真正例的概率,即真负例中判为正例的概率
- 真阳性率(TPR):判定为正例也是真正例的概率,即真正例中判为正例的概率
- ROC曲线:一个二分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的 FPR 和 TPR ,将同一模型每个阈值的 (FPR, TPR) 坐标都画在 ROC 空间里,就成为特定模型的ROC曲线。ROC曲线横坐标为假正率(FPR),纵坐标为真正率(TPR)
- AUC:ROC 曲线下方的面积(Area under the Curve),其意义是:
(1) 因为是在1x1的方格里求面积,AUC必在0~1之间
(2) 假设阈值以上是阳性,以下是阴性
(3) 若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本的概率 = AUC
(4) 简单说,AUC值越大的分类器,正确率越高
- 超额收益率:超额收益率是指超过正常(或预期)的收益率,它等于某日的收益率减去投资者(或市场)当日要求的正常(预期)收益率之差
- 最大回撤:策略收益曲线上,高点到后期最低点的回撤幅度的最大值
- 信息比率:
- 跟踪偏离度(Tracking Difference):
:基金i在时间t内的跟踪偏离度
:基金i在时间t内的净值增长率
:基准组合在时间t内的收益率 (大盘指数收益率)- 跟踪误差(Tracking Error):
:基金i的跟踪误差
:表示基金i的跟踪偏离度的样本均值
:样本数
跟踪误差越大,说明基金的净值率与基准组合收益率之间的差异越大,并且基金经理主动投资的风险越大,通常认为跟踪误差在2%以上意味着差异比较显著- 信息比率(Information Ratio):
:基金i的信息比率
:基金i的跟踪偏离度的样本均值
:基金i的跟踪误差
信息比率越大,说明基金经理单位跟踪误差所获得的超额收益越高,因此,信息比率较大的基金的表现要优于信息比率较低的基金
- Calmar比率:区间年化收益率/区间最大回撤
算法
- 模型:随机森林
- 数据:全 A 股,剔除 ST 股票,剔除每个截面期下一交易日停牌的股票,剔除
上市 3 个月以内的股票,每只股票的每个月末截面期数据视作一个样本 - 标签:每只股票下一自然月的超额收益(以沪深 300 指数为基准)
- 特征:70个通用因子+上证指数周期三因子
-
训练集合成:在每个月末截面期,选取下月收益排名前 30%的股票作为正例(y = 1),后 30%的
股票作为负例(y = 0)。将当前月份前 6 个月的样本合并形成训练集