240 发简信
IP属地:上海
  • 240
    深度强化学习DQN详解CartPole(2)

    二、 卷积网络和训练 接上回 处理环境图片。python几处值得关注的用法(连接) 示例用卷积网络来训练动作输出: 还是比较直白的: Conv 3通道 16通道 Con...

  • 240
    深度强化学习DQN详解CartPole(1)

    一、 获取并处理环境图像 本文所刨析的代码是“pytorch官网的DQN示例”(页面),用卷积层配合强化训练去学习小车立杆,所使用的环境是“小车立杆环境”(CartPole)...

  • Q-learning:Temporal Difference / Monte Carlo

    Q-learning 是RL的核心 Q 代表 Quality 品质 系统维护一个Q值表: 13.31.622.67.832.49.541.35.6 当前agent下一步要采取...

  • 游戏开发职位

    国内游戏公司普遍分不清 项目经理 和 制作人,产品经理的区别。我试着区分一下: 国外 制作人 这个职位,不负责 游戏的设计 和 发布(对这两样的认知 和 意识 是要有的)详见...

  • BinAddDec

    为何-1是1111? 这套系统,将减法化为加法。将整数和负数统一对待。 2进制加1: 从右往左依次反转,直到反转遇到的第一个0为止。

  • 进制转换

    从前有一个原始人,他养了几头羊🐑,他希望天天都可以在自己的家,明确的知道羊的数量。 于是他找来1个碟子,又去海边捡了许多一样大小的石子。他试着放了一下,一个碟子里恰巧可以放9...

  • HEXO 安装

    install basic 如果是从git pull下来的老项目: 如果是新建项目: NexT _config.ymltheme: next unique path _con...

  • 240
    微积分简介

    微积分有两个主要概念: 1. Derivative 导数: 曲线上两点A、B,过两点有一条线,B不断移向A,最终与A重叠,这时,这条线就是曲线在A点的切线(tangent)。...

  • 240
    Tensor的代码表达及方向

    矩阵的索引顺序: 方向(就是最内层数组)永远是最后一个方向:。是倒数第二是倒数第三依次往前推…… 比如,一个3维矩阵(如图),第一个元素的坐标是:或者:如果是一个4维矩阵,第...