240 发简信
IP属地:广东
  • Applying Expert Data into RL

    方法一:先用expert数据(s,a)监督训练pre-train policy网络,再继续RL训练。但是需要expert数据量够大, 不然容易陷入过拟合影响初始的exploi...

  • RL Paper Review

    导航 Learning to Navigate in Cites Without a Map, NIPS2018,DeepMind 本篇是DeepMind出品的关于导航任务的...

  • IJCAI 2019

    本次IJCAI之行共七天时间。前面三天是tutorial和workshop同时进行。后面四天是conference,每个时间段有多个session同时进行。由于时间有限,前三...

  • 120
    动态规划

    先考虑斐波拉契数列: 对fib(6)递归树如下: 递归实现: 那么会多次调用函数求解common的子问题,比如fib(3), fib(2)。我们可以记录下来,用空间换时间: ...

  • 120
    ws:OpenAI Deep RL

    一 什么是RL RL是trail and error来解决问题。 RL条件:你有一个sequential decision making问题,你不知道最好的behavior怎...

  • 120
    class:deep RL UC Berkeley

    用法总结 Imitation learning只能模仿所给的demonstration,并不能超越,而且没有应用到reward。 对于Markov decision proc...