初七123 - 简书

IP属地：四川

最优控制: LQR
一份关于 LQR 的简单易懂的入门级教程，它是最优控制的基础概念。我将会在这篇文章中讨论最优控制，并会更具体的讨论性能非常优秀的线性二次调节器...

0.1 10246 0 1
伪随机数算法生成高斯分布
伪随机数算法平方取中法（Middle-square method）是个产生伪随机数的方法，由冯·诺伊曼在1946年提出。算法：即平方取中...

3.1 10238 0 1

反向传播算法
卷积网络这里讨论通过卷积的方式表达CNN反向传播池化层假设我们的池化区域大小是2x2，并且下一层的梯度为：如果是MAX，假设我们之前在前...

0.1 4933 0 2
从傅里叶级数到快速傅里叶变换
在计算机上编程做信号处理时，我们通常用的是FFT, 但是开始学信号处理时，一般是从FS开始的。所以这里整理一下从FS到FFT“演变”的过程。以下...

5352 1 2
噪声对比估计
说到噪声对比估计，或者“负采样”，大家可能立马就想到了Word2Vec。事实上，它的含义远不止于此，噪音对比估计（NCE, Noise Cont...

6844 1 1
Ring Allreduce
The Communication Problem 当将神经网络的训练并行化到许多GPU上时，你必须选择如何将不同的操作分配到你可用的不同GPU...

1.3 19411 0 11
自然梯度
什么是自然梯度首先，我们必须理解标准梯度下降。假设我们有一个神经网络，由一些参数向量参数化。我们想要调整这个网络的参数，所以网络的输出在某种...

0.1 10026 0 1

《强化学习导论》：Policy Gradient Methods
在这一章中，我们讨论策略梯度 Policy Approximation and its Advantages the approximate p...

4258 0 0
《强化学习导论》：Eligibility Traces
资格迹是增强学习的一个基本的机制。比如在流行的TD(k)算法中，k涉及到资格迹的使用。几乎所有的时间差分算法如Q-Learning，Sarsa，...

5637 0 0