AMiFan - 简书

发简信

AMiFan

3
关注
8
粉丝
13
文章
4824

字数
17

收获喜欢
2

总资产

IP属地：江苏

福later

MTK Camera 从底层到应用层一网打尽
转载请注明出处(https://www.jianshu.com/p/5f538820e370),您的打赏是小编继续下去的动力 Camera总体架构 1.1 Android系统...

29872 8 73 2
yongfutian

一、Socket技术详解
Socket原理１、什么是Socket 在计算机通信领域，socket 被翻译为“套接字”，它是计算机之间进行通信的一种约定或一种方式。通过 socket 这种约定，一台计...

263760 14 346 2
AMiFan

Anaconda Navigator打不开
方法：使用管理员权限运行 Anaconda Prompt 升级navigator，执行conda update anaconda-navigator 重置navigator...

8029 1 3
AMiFan

近端策略优化算法(PPO)
首先我们回顾一下“策略梯度方法（PG）”和“信赖域策略优化（TRPO）”。1.策略梯度方法（PG）策略梯度方法通过计算策略梯度的估计并利用随机梯度上升算法来工作。最常用的梯...

10936 0 3
AMiFan

演员-评论家方法(Actor-Critic)
策略梯度法引入值函数策略梯度法中梯度的基本形式为：现在我们回顾一下状态-动作值函数和状态值函数的定义：现在我们令公式（1）中的，为什么用来表示,因为这两者是有密切联系的...

4968 0 1
AMiFan

策略梯度方法(Policy Gradients)
策略梯度方法（PG）是强化学习（RL）中经常使用的算法。基于值函数的DQN算法通过近似估算状态-动作值函数来推断最优策略，而策略梯度方法则是直接优化策略。策略梯度方法推导 ...

14278 0 7