今天分享一个简单的XGBoost选股模型。
导入包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 解决坐标轴刻度负号乱码
plt.rcParams['axes.unicode_minus'] = False
# 解决中文乱码问题
plt.rcParams['font.sans-serif'] = ['Simhei']
一、读入数据
我们的数据是沪深300成分股2013-2016年每个季度的包括盘面信息、基本面信息的17个因子特征。
data = pd.read_csv("300Data.csv")
data.head()
可以看一下我们的17个因子:
data['factor'].unique()
二、特征工程
我们首先要定义label:
下个季度股价涨跌幅超过沪深300指数的涨跌幅,则我们认为本季度该股票应该买入,label设为1;否则为0。
首先找出沪深300每个季度的涨跌幅作为benchmark,计算出每只成分股每个季度相对于基准的涨跌幅。
# 获取每只个股每个季度的涨跌幅
p_chg_df=data[data['factor']=='涨跌幅']
# 找到沪深300的季度涨跌幅
p_chg300=p_chg_df[p_chg_df['stock']=='沪深300']
p_chg300
# 计算每只成分股每个季度相对于基准的涨跌幅
for col in p_chg_df.columns[2:]:
p_chg_df[col]=p_chg_df[col] - p_chg300.loc[563,col] # 沪深300的索引是563,这一步计算每只股票对于沪深300的相对涨幅
p_chg_df.head()
这里需要注意,我们计算的是本季度相对于基准的涨跌幅,但我们本季度【是否买入】应该根据下一季度相对涨跌幅的情况而定。
# 获取下一季度的超涨跌幅
p_chg_df.iloc[:,2:]=p_chg_df.iloc[:,2:].shift(-1,axis=1)
p_chg_df.head()
接来下我们需要将每只股票每个季度的17个因子提出来,作为一条记录。
# 定义数据转换函数,行名为股票名,列名为特征名
def transform_data(df, value):
result = (df.pivot_table(index=df['stock'], columns=[
df['factor']], values=value).reset_index())
return(result)
header=[i for i in data.columns if 'Q' in i] # 存储每个季度的名字
column=list(data['factor'].unique()) # 存储特征名
column.append('超涨幅')
stock_df = pd.DataFrame(columns = column)
for col in header:
df=transform_data(data, col)
df=df.merge(p_chg_df[['stock',col]],on='stock',how='left')
df.rename(columns={col:'超涨幅'},inplace=True)
stock_df=stock_df.append(df,ignore_index=True)
stock_df['是否买入']=np.where(stock_df['超涨幅']>0,1,0)
stock_df.head()
# 空值处理:由于如果用填充法需要行业数据,我们这里直接简单粗暴删除空值行
stock_df1=stock_df.dropna(axis=0)
stock=stock_df1.copy()
y=stock['是否买入'].values
del stock['stock']
del stock['超涨幅']
del stock['是否买入']
X=stock.values
print('特征维度是{}\n标签维度是{}'.format(X.shape,y.shape))
pd.Series(y).value_counts()
可以看到,涨跌记录数量相差不大,不存在数据不平衡的问题。
三、建立XGBoost模型
# 划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=420)
import xgboost as xgb
from sklearn import metrics
dtrain=xgb.DMatrix(X_train,label=y_train)
dtest=xgb.DMatrix(X_test)
# 给定模型参数
params={'booster':'gbtree',
'objective': 'binary:logistic',
'eval_metric': 'auc',
'max_depth':8,
'gamma':0,
'lambda':2,
'subsample':0.7,
'colsample_bytree':0.8,
'min_child_weight':3,
'eta': 0.2,
'nthread':8,
'silent':1}
# 用于观察弱分类器训练过程
watchlist = [(dtrain,'train')]
# 建立xgboost模型
bst=xgb.train(params,dtrain,num_boost_round=100,evals=watchlist)
# 涨跌概率
y_prob=bst.predict(dtest)
# 设置阈值, 输出一些评价指标
y_pred = (ypred >= 0.5)*1
# 获取真阳率、伪阳率、阈值
fpr_xgb,tpr_xgb,threshold_xgb = metrics.roc_curve(y_test,y_prob)
auc_xgb = metrics.auc(fpr_xgb,tpr_xgb) # AUC得分
score_xgb = metrics.accuracy_score(y_test,y_pred) # 模型准确率
print([score_xgb,auc_xgb])
最终预测准确率为57.62%,AUC值为0.6096。
可以看到,这个结果并不高。当然,一是因为股市预测中扰动因素太多,很难有非常高的预测准确率,二是本例仅仅是一个简单的建模过程,大家有兴趣,可以通过选取其他因子、重新定义标签、对xgboost模型进一步调参(小白这里模型参数都是直接从我别的案例里拷过来的并未调参)等方式改进,相信会有一个更佳的结果。