一个简单的XGBoost选股模型

今天分享一个简单的XGBoost选股模型。

导入包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 解决坐标轴刻度负号乱码
plt.rcParams['axes.unicode_minus'] = False
# 解决中文乱码问题
plt.rcParams['font.sans-serif'] = ['Simhei']

一、读入数据

我们的数据是沪深300成分股2013-2016年每个季度的包括盘面信息、基本面信息的17个因子特征。

data = pd.read_csv("300Data.csv")
data.head()
源数据

可以看一下我们的17个因子:

data['factor'].unique()
因子特征

二、特征工程

我们首先要定义label:
下个季度股价涨跌幅超过沪深300指数的涨跌幅,则我们认为本季度该股票应该买入,label设为1;否则为0。
首先找出沪深300每个季度的涨跌幅作为benchmark,计算出每只成分股每个季度相对于基准的涨跌幅。

# 获取每只个股每个季度的涨跌幅
p_chg_df=data[data['factor']=='涨跌幅']
# 找到沪深300的季度涨跌幅
p_chg300=p_chg_df[p_chg_df['stock']=='沪深300']
p_chg300
沪深300季度涨跌幅
# 计算每只成分股每个季度相对于基准的涨跌幅
for col in p_chg_df.columns[2:]:
    p_chg_df[col]=p_chg_df[col] - p_chg300.loc[563,col]         # 沪深300的索引是563,这一步计算每只股票对于沪深300的相对涨幅

p_chg_df.head()
季度相对涨跌幅

这里需要注意,我们计算的是本季度相对于基准的涨跌幅,但我们本季度【是否买入】应该根据下一季度相对涨跌幅的情况而定。

# 获取下一季度的超涨跌幅
p_chg_df.iloc[:,2:]=p_chg_df.iloc[:,2:].shift(-1,axis=1)
p_chg_df.head()
下一季度相对涨跌幅

接来下我们需要将每只股票每个季度的17个因子提出来,作为一条记录。

# 定义数据转换函数,行名为股票名,列名为特征名
def transform_data(df, value):
    result = (df.pivot_table(index=df['stock'], columns=[
              df['factor']], values=value).reset_index())
    return(result)

header=[i for i in data.columns if 'Q' in i]  # 存储每个季度的名字

column=list(data['factor'].unique())          # 存储特征名
column.append('超涨幅')

stock_df = pd.DataFrame(columns = column) 

for col in header:
    df=transform_data(data, col)
    df=df.merge(p_chg_df[['stock',col]],on='stock',how='left')
    df.rename(columns={col:'超涨幅'},inplace=True)
    stock_df=stock_df.append(df,ignore_index=True)

stock_df['是否买入']=np.where(stock_df['超涨幅']>0,1,0)
stock_df.head()
特征
# 空值处理:由于如果用填充法需要行业数据,我们这里直接简单粗暴删除空值行
stock_df1=stock_df.dropna(axis=0)

stock=stock_df1.copy()

y=stock['是否买入'].values

del stock['stock']
del stock['超涨幅']
del stock['是否买入']

X=stock.values
print('特征维度是{}\n标签维度是{}'.format(X.shape,y.shape))
image.png
pd.Series(y).value_counts()
标签分布

可以看到,涨跌记录数量相差不大,不存在数据不平衡的问题。

三、建立XGBoost模型

# 划分训练集和测试集
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=420)

import xgboost as xgb
from sklearn import metrics

dtrain=xgb.DMatrix(X_train,label=y_train)
dtest=xgb.DMatrix(X_test)

# 给定模型参数
params={'booster':'gbtree',
    'objective': 'binary:logistic',
    'eval_metric': 'auc',
    'max_depth':8,
    'gamma':0,
    'lambda':2,
    'subsample':0.7,
    'colsample_bytree':0.8,
    'min_child_weight':3,
    'eta': 0.2,
    'nthread':8,
     'silent':1}
# 用于观察弱分类器训练过程
watchlist = [(dtrain,'train')]
# 建立xgboost模型
bst=xgb.train(params,dtrain,num_boost_round=100,evals=watchlist)
# 涨跌概率
y_prob=bst.predict(dtest)
# 设置阈值, 输出一些评价指标
y_pred = (ypred >= 0.5)*1
# 获取真阳率、伪阳率、阈值
fpr_xgb,tpr_xgb,threshold_xgb = metrics.roc_curve(y_test,y_prob) 
auc_xgb = metrics.auc(fpr_xgb,tpr_xgb)                             # AUC得分
score_xgb = metrics.accuracy_score(y_test,y_pred)                  # 模型准确率
print([score_xgb,auc_xgb])

最终预测准确率为57.62%,AUC值为0.6096。

可以看到,这个结果并不高。当然,一是因为股市预测中扰动因素太多,很难有非常高的预测准确率,二是本例仅仅是一个简单的建模过程,大家有兴趣,可以通过选取其他因子、重新定义标签、对xgboost模型进一步调参(小白这里模型参数都是直接从我别的案例里拷过来的并未调参)等方式改进,相信会有一个更佳的结果。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容

  • xgboost: 速度快效果好的boosting模型 Python R 本文作者:何通,SupStat Inc(总...
    hzyido阅读 2,246评论 0 14
  • 我只是想让你看见我的开心 就连雪花都是温柔的暖 湖风不寒 冬雨的淅沥淅沥 藏了悄悄话的温
    鱼小姐是个花姑娘阅读 220评论 0 1
  • 今天早上,收到吴先森的情人节特殊的爱的表达,幸福满满!晚上在酒店一楼发现一个房间一屋子的假花,居然没锁门,进去后看...
    虹丞阅读 274评论 0 0
  • 几年前说自己是90后,感觉还挺年轻。无论怎么任性,都还有机会重来一次。如今提及90后的我们,我们不由得说都30岁的...
    Koreyoshi_pyc阅读 172评论 0 1
  • 百刊争颂文明事, 花绽香飘醉大家。 园里高人留妙韵, 美心真意赞中华。 注:此诗系藏头诗。《百花园》系简书群里一家...
    艾思阅读 851评论 40 56