Iverson_henry - 简书

发简信

15
关注
3
粉丝
48
文章
22574

字数
7

收获喜欢
0

总资产

IP属地：河南

Iverson_henry ·

写的真的是好,我不明白为什么那么多老师都不能像你,或者像那些知名受欢迎的教授一样,把知识按照循序渐进,通俗易懂的方式告诉我们,难道害怕知识人人都能懂,没有阶层了吗!?

04b379818751 评论自什么是粗糙集(一)
Iverson_henry

各种求minimize极值的优化方法
包括牛顿法、梯度下降法... 这些其实并非是最优秀的，今天听说一个L-BFGS-B ，未来可以尝试性能并应用。 https://www.cnblogs.com/zyfd/p...

3085 0 0

Iverson_henry

p-value与显著性优势
https://blog.csdn.net/rongbaohan/article/details/53521147

3273 0 0
Iverson_henry

强化学习论文中应注意的事项
https://zhuanlan.zhihu.com/p/52066264 非常棒！

1085 0 0
Iverson_henry

hadoop
1. hadoop on Yarn 注意 application Master的角色 Resource Manager是针对cluster资源的。 NodeManager...

734 0 0
Iverson_henry

java
1. 子类继承父类的时候，会先默认执行父类的无参构造函数（即便实例化的时候用的是传参的方式），再执行子类的构造函数。 2. 继承 extends, 子类继承父类的构造方...

838 0 0
Iverson_henry

PPO和DPPO
PPO： A2C算法的改进版，主要是为了解决 ‘learning rate 不易设置的问题’， DPPO是 PPO的distributed版本，比如10个worker，每...

10074 0 1

Iverson_henry

policy-gradient和q-learning区别
其中一个区别就是， q-learning总是用 Q现实 - Q估计来获得loss，从而更新参数。但基础版本的policy-gradient都不用这些。人家是直接用 nor...

4987 0 0
Iverson_henry

A3C
中央大脑 Global_net 以及 4个（一般多少个CPU就多少个Worker）worker，每个 worker都是独立做一个 AC算法， A3C其实就是一个并行计算的A...

2948 0 0
Iverson_henry

actor-critic
1. actor是 policy-gradient， critic是类似于q-learning的value-based 的另一个代表： state-value ，所以act...

5669 0 0
Iverson_henry

policy-gradient
参考资料： 1.https://zhuanlan.zhihu.com/p/21725498 2. https://zhuanlan.zhihu.com/p/7517489...

4170 0 0
Iverson_henry

Hongtao洪滔
写了 35323 字，被 1209 人关注，获得了 566 个喜欢

博主暂居英国伦敦，从事人工智能和物联网相关工作。<br>欢迎关注我的微信公众号“Tensorflow机器学习”。二维码见下方微信图标。<br>带你掌握智能时代的“算法”，而不是成为这个时代的“数据”。

暂无个人介绍