1. 前言 最近做了一段时间的模型搜索,实验过程中发现模型搜索作用还是很明显的。本篇文章主要回顾了一下近几年一些关于模型搜索的文章: RL-ba...
1. 介绍 首先了解一下策略梯度法,之后再对DPG和DDPG两篇论文进行学习。 2. 梯度策略法 梯度策略法 ( Policy Gradient...
1. 介绍 这是一篇粗浅并且可能存在错误的个人理解 我们在使用MXNet的时候,都是通过调用python端提供的接口。通过一步步地构建symbo...
1. KVStore里的Barrier 在mxnet的分布式训练里,主要模式就是参数服务器。每个worker或者agent就是一台machine...
wait_to_read 在mxnet中,类ndarray可以调用 wait_to_read,官方给出的该函数解释是: Waits until ...
1. 介绍 这篇论文将DQN应用于动作空间是连续的情况。我们知道,DQN的输入通常是高纬度的观测空间(例如图像像素),输出则是离散的动作空间。生...
1. 介绍 Policy gradient算法在增强学习中有非常多的应用,尤其是动作空间连续的情况。通常我们使用一个函数来表示策略。通常poli...
1. 介绍 如今大多数的检测模型的backbone都需要在ImageNet预训练,才能达到一个较好的结果。但是如果是新设计的网络结构,就需要先在...
1. 介绍 在论文中,作者提出了先训练一个大的笨重的模型,再使用distilling来将笨重的模型的知识迁移到小的模型中,用于实际部署。通常情况...