实战量化投资大赛之一_baseline

1. 说明

 昨天在群里看到了:凤凰金融量化投资大赛,详情见: http://www.dcjingsai.com/common/cmpt/%E5%87%A4%E5%87%B0%E9%87%91%E8%9E%8D%E9%87%8F%E5%8C%96%E6%8A%95%E8%B5%84%E5%A4%A7%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html 看了一下数据,大概是利用过去两年N支股票的数据,预测未来半年的走势,然后再从这N支股票里选出20-50支作为组合,看谁的组合半年后收益最大,以此排名.数据包含股票代码,收盘价,和八十多个脱敏后的特征.

2. 一些想法

 我关注的一支股票,昨天跌停了,今天该买还是该卖?单看涨跌和趋势线是没法判断.涨跌和很多因素有关,比如跌停日的交易量,消息面,基本面,外盘,大盘涨跌,近期趋势.一般跌停次日的涨跌的概率等等,人基本是通过这些因素综合判断.
 估计上述的很多成分被包含在比赛提供的80多个特征之中(毕竟是专业人士给出的数据).于是特征工程就简单了很多,可以更多地关注模型.当然像标准化,移动平均线这些特征还是需要做.
 再看模型,预测未来半年走势,是时序问题,提供的多个特征,可以使用决策树分类或回归.提交的结果又用到排序.最近时序和特征的比赛特别多,前一段的盐城上牌,汽车销售,正在进行中的阿里妈妈转化率都是.
 此题是对股票数据的一种呈现方式,以此类推,只要我们有基本面,技术面,消息面的大量数据,也可以构造类似的问题.比如说,把涨跌看成二分类问题,用历史数据训练,可能将命中率从0.5提高到0.6,看起来提升不大,但是如果机构有大量资金,可以购买几十上百支股票组合,并且有一个较长的交易时间段,那么算法的提升对应的就是收益,这也是大数定律的含义.

3. 一种简单的方案

 今天做了一种非常简单的方案,线上得分48左右,下面介绍一下原理.

(1) 数据

 每个CSV代表一天的数据,按照从1-488的从小到大的时间序列顺序排列.文件中,第一列是股票代码,第二列是收盘价,后面是脱敏特征.
 首先是把所有数据都放在一起,如果还存成csv的话,大概185M,总共有934支股票,取每天各股的均值,作为大盘指数看待,整体走势如下:

这种情况不太常见,股票在三个月内涨了一倍,又迅速跌回原位.看了其中几支股票,和大盘走势都比较相似.

(2) 分析

 先分析一下,争取最大程度地简化问题.因为不能空仓,无论大盘是涨是跌,手里必须拿着至少20支股票.就算未来半年暴跌,大家也必须持有.所以这个题的目标是不一定能赢利,但需要跑赢大盘,跑赢其他人,可以看作各股和大盘之间的关系.
 当然大盘的趋势对选股也有影响,比如在下降趋势中就趋向更保守的操作.选股个数在20-50之间,预测的股票个数越多,算法越保守,因为排在后面的趋势没那么明显. 本次的具体解决方案是:取出大盘指数,然后挑选和大盘相比走势最强的20支股票,整个过程中只用了线性拟合,也没拆分训练测试集,只是最最简单的方法.

(3) 去掉大盘趋势

 实验证明,去掉大趋势时,除法比减法效果更好.因为对不同股票作归一化不太容易,这里选择了除法.下面四条曲线中,红色是大盘走势,蓝色为某股走势,黄色为该股减大盘,绿色为该股除大盘,相对的,绿色曲线更能表征该个股的特征,去除大盘的因素,绿线趋势向上,其斜率即紫色线.

 计算周期不一定是两年,可以是一年,半年等等,计算出它的斜率,再比较出斜率最大的前20,就是该模型的结果. 这个模型也有些问题,比如,选出来的很多是次新股,另外,还要考虑当前的价格是不是太贵了,如果最终价格离直线太远,是不是趋势已改变.这些在后期做模型的时候,都需要抽象成特征.目前,这些我都通过图观察出来的,并且在程序里直接加了判断.

 话说,这比赛奖金不高.要是真能搞出几个靠谱的模型,谁还在意奖金?有时候一开始玩就不由自主地看得重排名.这个比赛争取用开放的心态来做,不用别人的baseline,自己的东西也不藏着掖着,边做边写文档.比赛的官方交流是QQ群,貌似还不是只针对这个比赛的,看看有没有也想玩的,咱们­建个钉钉群?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容