其实 A3C与前面说的 PPO 算法PPO(Proximal Policy Optimization)(一)算法原理[https://www.jianshu.com/p/f1...

其实 A3C与前面说的 PPO 算法PPO(Proximal Policy Optimization)(一)算法原理[https://www.jianshu.com/p/f1...
一、 DoubleDQN 相当于把不同的DQN代码进行融合得到的效果 随着游戏的进行, 期望的 Q 会越来越大, 不利于网络训练。我们看下 DQN 以及 DoubleDQN ...
前面说了 PPO 算法, 下面一鼓作气, 把其他的相关的强化学习也一并学习下。这里还是给出我学习的一些视频链接 视频链接: 不愧是顶会收割机!迪哥精讲强化学习4大主流算法:P...
先分享下代码地址:PPO_Nogo.py[https://gitcode.com/qq_51399582/Reinforcement-Learning/blob/main/8...
之前在学习大模型的时候学习过 PPO 算法, 但是当时也没有来得及对该算法进行梳理, 因此原理也基本忘了差不多了。 现在在做具身算法, 强化学习还是要重新捡回来, 这里又需要...
根据前一篇博客的介绍H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代码及模型...
这两天看了H-RDT模型, 该模型由地平线机器人实验室与清华大学计算机系朱军团队联合提出,在计算机视觉与模式识别领域顶级会议CVPR 2025举办的RoboTwin双臂机器人...
前面文章已经把openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Control) (一)...
接着前面说到了优化器openpi论文及代码解析结束(A Vision-Language-Action Flow Model for General Robot Control...
之前把openpi的基础背景进行梳理, openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot...
目前一说到具身算法不得不提两种经典模型一个是rdt模型一个是pi0模型, rdt模型在之前的博客介绍过了RDT-1B: a Diffusion Foundation Mode...
这段时间咱们得机器人已经做得差不多了, 我们需要基于自己采集的数据进行模型训练, 趁着数据还没有采集出来, 我先将一些说明进行梳理。 一、数据收集 首先收集hdf5相关数据集...
先给出代码的git地址: https://github.com/thu-ml/RoboticsDiffusionTransformer[https://github.com/...
四、数据处理模块 该模块需要看两处代码分为别hdf5_vla_dataset.py[https://github.com/thu-ml/RoboticsDiffusionTr...
前言 大约有三年的时间没有更新过简书的文章了, 最近随着人型机器人比较火热并伴随着大模型的成熟, 具身智能技术也被业界关注着, 当然我也转向投入具身智能算法. 这段时间我也...
该文章是openAI一系列文本图像生成工作的最新一篇,)下面给出这篇文章及代码的链接:paper[https://arxiv.org/pdf/2204.06125v1.pdf...
这篇文章发自OpenAI, 首先给出该文的地址以及对应的代码:Blog[https://openai.com/blog/clip/] paper[https://arxiv....
接着上次对比学习[https://www.jianshu.com/p/70b037d2b431]的内容,这次主要说下基于掩码的对比学习。 1 MAE paper[https:...