一份关于 LQR 的简单易懂的入门级教程,它是最优控制的基础概念。 我将会在这篇文章中讨论最优控制,并会更具体的讨论性能非常优秀的线性二次调节器...
伪随机数算法 平方取中法(Middle-square method)是个产生伪随机数的方法,由冯·诺伊曼在1946年提出。 算法: 即 平方取中...
卷积网络 这里讨论通过卷积的方式表达CNN反向传播 池化层 假设我们的池化区域大小是2x2,并且下一层的梯度为: 如果是MAX,假设我们之前在前...
在计算机上编程做信号处理时,我们通常用的是FFT, 但是开始学信号处理时,一般是从FS开始的。所以这里整理一下从FS到FFT“演变”的过程。以下...
说到噪声对比估计,或者“负采样”,大家可能立马就想到了Word2Vec。事实上,它的含义远不止于此,噪音对比估计(NCE, Noise Cont...
The Communication Problem 当将神经网络的训练并行化到许多GPU上时,你必须选择如何将不同的操作分配到你可用的不同GPU...
什么是自然梯度 首先,我们必须理解标准梯度下降。 假设我们有一个神经网络,由一些参数向量参数化。我们想要调整这个网络的参数,所以网络的输出在某种...
在这一章中,我们讨论策略梯度 Policy Approximation and its Advantages the approximate p...
资格迹是增强学习的一个基本的机制。比如在流行的TD(k)算法中,k涉及到资格迹的使用。几乎所有的时间差分算法如Q-Learning,Sarsa,...