阿山 - 简书

阿山

IP属地：河北

动态规划
动态规划用来计算最优策略，条件是环境已知。首先，环境已知的话，我们可以计算最优的value function：根据贝尔曼方程： Policy ...

331 0 0
有限马尔科夫决策过程
增强学习的方法就是用来解决马尔科夫决策过程。马尔科夫决策过程描述的是agent和environment的交互过程。在时间序列0,1,..t,的...

947 0 0

增强学习四要素
增强学习四个要素 policy policy指的是一个函数或者规则，输入为环境状态，输出为action(Roughly speaking, ...

687 0 0
临时-20170419
编译项目 [maven编译java项目]((http://upload-images.jianshu.io/upload_images/2066...

193 0 0
Ad Click Prediction: a View from the Trenches
点击率预估特征工程主要内容主要介绍在实际的点击率预估的工程过程中，有那些tricks，包括特征工程以及一些特评价指标- 关于稀疏模型单...

1804 0 0