去年写的文章,从notion的博客搬到这边来发一下(本来想搬到微信公众号的,但是那个格式真的反人类就作罢了),原文请到这里看mewimpetus...
联邦学习是Google在2017年提出来的,旨在在保护用户隐私的情况下使用用户更敏感的数据来训练机器学习模型。这种学习方式就是后来人们所谓的横向...
最近在整理电脑文件,看到一份当初给同事讲解TRPO算法原理时写的PPT,感觉要比先前那篇写的更加清楚明白,加之这几天刚好在复习RL相关的知识,然...
当我们在做一些跟网络游戏相关的机器学习任务的时候,有时需要对整个游戏系统的运行机制有所了解才能更好的应对,对于网游而言,首当其冲的机制便是同步了...
此文算是对Google Research这篇A Gentle Introduction to Graph Neural Networks[htt...
上一篇文章介绍了利用确定策略来解决连续控制问题的DDPG,现在再来介绍一种非常牛的用随机策略来做连续控制的方法Soft Actor Critic...
直接看名字就能看出DDPG(Deep Deterministic Policy Gradient )其实就是DPG(Deterministic ...
这俗话说的好呀,这饭要一口一口吃,酒要一口一口喝,路要一步一步走,步子迈大了,喀,容易扯到蛋。这训练模型呢,也是这个理,欲速则不达,收敛慢并不可...
在2017年的时候,无论是openai或者是deepmind,在深度强化学习领域都取得了重大突破,而能带来这个突破的一个重要因素便是PPO(Pr...