240 发简信
IP属地:重庆
  • 把公式整理了一下之后发现我差不多明白了。。主要的秘诀在于权值矩阵。比如说,x和h的维度是[m,1],两者concatenate之后维度是[2m, 1],所以只需要w的维度是[m, 2m], b的维度是[m, 1]就可以使得运算后的维度是[m, 1]了。

    理解 LSTM 网络

    作者: Christopher Olah (OpenAI)译者:朱小虎 Xiaohu (Neil) Zhu(CSAGI / University AI)原文链接:https:...

  • 感谢作者的翻译,不过这里有个疑问,是针对olah的文章的。原文中LSTM的这个单元,如果两条线汇聚代表“concatenate”的话,最初x_t和h_{t-1}两者连接之后,后面的维度都会加倍,这样h_t的维度其实就是h_{t-1}的二倍,如此一来,维度越扩越大啊。相反,看了Google在Udacity上的Deep Learning教程的关于LSTM的例子,他们的做法不是concatenate,而是把二者相加,保持维度相等。所以感觉olah的这个写法是不是有些问题?

    理解 LSTM 网络

    作者: Christopher Olah (OpenAI)译者:朱小虎 Xiaohu (Neil) Zhu(CSAGI / University AI)原文链接:https:...