240 发简信
IP属地:广东
  • 深度强化学习落地指南总结(一)-需求分析

    本系列是对《深度强化学习落地指南》全书的总结,这本书是我市面上看过对深度强化学习落地讲的最好的一本书,大大拓宽了自己对RL落地思考的维度,形成了...

  • virtualenv使用说明

    用PPO要用tensorflow_proballity 自己电脑是tf1.x 没法顺利安装 所以要用虚拟环境 一般就是进入venv的bin目录下...

  • 机器学习中的频率派和贝叶斯派-以极大似然估计和最大后验估计为例

    这是一个新的系列,会整理一下以前在ipad上写的笔记。 前言 把概率引进到机器学习当中是一件很自然的事情,许多机器学习当中问题的本质都可以从概率...

  • Resize,w 360,h 240
    强化学习算法总结(一)——从零到DQN变体

    这是新开的一个系列,将结合理论和部分代码(by ElegantRL)介绍强化学习中的算法,将从基础理论总结到现在常用的SAC,TD3等算法,希望...

  • Resize,w 360,h 240
    深入浅出解读并思考AlphaGo

    本文是对2016年发表在Nature的<< Mastering the game of Go with deep neural networks...

  • Resize,w 360,h 240
    蒙特卡洛积分与重要性采样

    重要性采样在强化学习有着重要作用,它是蒙特卡洛积分的一种采样策略. 目录 概率论基础 蒙特卡洛积分 重要性采样 参考 概率论基础 本文先补充两条...

  • Resize,w 360,h 240
    强化学习之蒙特卡洛学习,时序差分学习理论与实战(四)

    前言 上一讲讲解了如果应用动态规划算法对一个已知状态转移概率的MDP进行策略评估或通过策略迭代或直接的价值迭代来寻找最优策略和最优价值函数,同时...

  • Resize,w 360,h 240
    强化学习之动态规划寻找最优策略理论与实战(三)

    前言 本讲将着重讲解如何利用动态规划(Dynamic programming)来解决强化学习中的规划问题。"规划"是指在已知环境动力学的基础上进...

  • Resize,w 360,h 240
    强化学习核心之马尔科夫决策过程理论与实战(二)

    前言 本讲将从基础的马尔科夫过程开始讲解,到马尔科夫奖励过程,马尔科夫决策过程,最后也会用代码巩固这部分理论. 目录 马尔科夫过程 马尔科夫奖励...

个人介绍
RL/CV学习,公众号:计算机视觉漫谈