明星有灿 - 简书

明星有灿

IP属地：上海

SARSA时序差分学习方法
什么是SARSA SARSA算法的全称是State Action Reward State Action，属于时序差分学习算法的一种，其综合了动...

1283 0 1
贝尔曼方程与两类值函数
贝尔曼方程与两类值函数为了评估一个策略的期望回报，我们定义两个值函数：状态值函数和状态-动作值函数。状态值函数折扣率的引入有终止状态的情...

2819 0 0

Ubuntu下多版本Python环境管理
virtualenvwrapper库的安装与配置查看当前环境 Python的执行文件位于/usr/bin/目录下，可以进入该目录查看当前安装的...

2752 0 0
Custard拥塞控制算法论文解读
该论文的全称为“Internet Congestion Control via Deep ReinforcementLearning”，收录于N...

900 1 0
Indigo拥塞控制算法发送端代码解读
Indigo拥塞控制算法发送端代码解读本文章将不定时进行更新，欢迎收藏。相关源文件 Indigo拥塞控制算法集成于Pantheon拥塞控制算...

1562 1 1