s - state, a - action, r - reward
长期持有(或持有多头, holding long)是一种状态, 告诉我们股票是否是长期持有的, 也可能是持有空头(holding short)
每日回报既可以作为状态作为参考, 也可以作为奖励
马尔科夫决策问题包含:
- 一组潜在状态S
- 一组潜在行动A
- 转移函数T[s, a, s'] # s'概率分布之和必须是1, 代表下一个状态, 其概率分布能带来有用的信息.
- 奖励函数R[s, a]
强化学习属于马尔科夫决策问题, 其任务是找出使奖励最大化的策略π(s), 最优策略称为π*(s), 其中两个算法是策略迭代和值迭代
当转移函数和奖励函数未知时:
称为一个体验元组(experience tuple)
有两种方法得到策略π:
- 模型相关的强化学习
通过查看转移统计数据构建模型T[s, a, s'], 以及对奖励求均值构建模型R[s, a], 获得这些模型后通过策略迭代或值迭代解决问题 - 模型无关的强化学习
Q-Learning
折扣回报
考虑到1美元的未来价值(货币贬值), 无穷步数的回报是逐渐减少的, 要乘系数λ, 系数λ和利率类似, 表示回报是折扣的.
无限步数后可以获取, 有限步数10步也可以获取, 设置折扣回报仍可以获取