我们想要的是通过之前的平均值,求新的平均值:只要知道了的算法,就可以实现只要已有平均值 和 新添加值,就可以算出新的平均值 用 和 带入公式: 带入公式
我们想要的是通过之前的平均值,求新的平均值:只要知道了的算法,就可以实现只要已有平均值 和 新添加值,就可以算出新的平均值 用 和 带入公式: 带入公式
数据和枚举的对应关系:{A:1, B:2, C:3, ...} 网络层输入按照枚举方式,比如是A的话,那么输入层就是A: [1, 0, 0, 0, 0, 0, ...], 如...
是无知的可怕。 有一类数,可以用两个数的比值来表示,比如 在古希腊(及希腊系的英语),这类数叫 ratio(估算,计算,原因,两数的关系,和reason同出一室,发音都差不多...
probability:发生的概率 发生的次数/总次数0:不发生 1:必发生 odds:发生比 发生的概率 / 不发生的概率0:不发生,:必发生 logits: 发生比的lo...
从一个样本空间中,抽样。比如:我要抽 [0, 1, 2] 三个物体,共100次,那我希望: 0能抽到20次左右 1能抽到70次左右 2能抽到30次左右
policy gradient 其实就是 的平均数: corssentropy是加法,总和。这里需要每一项,所以就取一个平均值。 好算,就是递减奖励累加,字面意思,一次完整...
国内游戏公司普遍分不清 项目经理 和 制作人,产品经理的区别。我试着区分一下: 国外 制作人 这个职位,不负责 游戏的设计 和 发布(对这两样的认知 和 意识 是要有的)详见...
Q-learning 是RL的核心 Q 代表 Quality 品质 系统维护一个Q值表: 13.31.622.67.832.49.541.35.6 当前agent下一步要采取...
数组维度和方向(连接) gather() 函数是按照索引选取数字: 一个二维数组,如果沿第0维选取元素,则按照将头方向依次选取数字。0,2,1就是如图: 如果沿第1维选取元素...
在python里,*号代表拆分,把list/tuple里的元素拆出来,如: zip()的作用是交叉合并元素,就像拉链一样: list(zip(*li))[(1, 4, 7),...
二、 卷积网络和训练 接上回 处理环境图片。python几处值得关注的用法(连接) 示例用卷积网络来训练动作输出: 还是比较直白的: Conv 3通道 16通道 Con...
一、 获取并处理环境图像 本文所刨析的代码是“pytorch官网的DQN示例”(页面),用卷积层配合强化训练去学习小车立杆,所使用的环境是“小车立杆环境”(CartPole)...
只需要3种运算:加法,乘法,带入函数 加法:左右 左右乘法:左右 左右左右函数:链式法则 其他所有复杂运算,都可以层层剥离,最终变为这3种运算,如:减法:就是,除法:就是
1.计算各种组合的 期望回报/风险: 每n天收益率集合:期望回报:求平均值风险:求标准差 计算Efficient frontier将所有值绘图,找到无风险收益点,然后绘制切线...
总结:Softmax就是将数值转为概率。交叉熵就是求两组概率分布的偏差。 有如下:: 可以看作是 可以看作是 是的log值, 越大越大。 log( [0, 1) )log(...
矩阵的索引顺序: 方向(就是最内层数组)永远是最后一个方向:。是倒数第二是倒数第三依次往前推…… 比如,一个3维矩阵(如图),第一个元素的坐标是:或者:如果是一个4维矩阵,第...
通常NN层的描述如下: units 的值: 数据如下: keras层的定义: keras层的数据对应方式 (n=5):
微积分有两个主要概念: 1. Derivative 导数: 曲线上两点A、B,过两点有一条线,B不断移向A,最终与A重叠,这时,这条线就是曲线在A点的切线(tangent)。...
install basic 如果是从git pull下来的老项目: 如果是新建项目: NexT _config.ymltheme: next unique path _con...
从前有一个原始人,他养了几头羊🐑,他希望天天都可以在自己的家,明确的知道羊的数量。 于是他找来1个碟子,又去海边捡了许多一样大小的石子。他试着放了一下,一个碟子里恰巧可以放9...