记录一下对RNN,LSTM,GRU基本原理(正向过程以及简单的反向过程)的个人理解-------------------#RNNRecurrent Neural Networks,循环神经网络(注意区别于recursive neural network,递归神经网络)####RNN结构单元结构####数学描述回忆一下单隐含层的前馈神经网络输入为$\mathbf{X}\in\mathbb{R}^{n\timesx}$(n个维度为x的向量)隐含层输出为$$\mathbf{H}=\phi(\mathbf{X}\mathbf{W}_{xh}+\mathbf{b}_h)$$输出层输入$\mathbf{H}\in\mathbb{R}^{n\timesh}$输出为$$\hat{\mathbf{Y}}=\text{softmax}(\mathbf{H}\mathbf{W}_{hy}+\mathbf{b}_y)$$现在对$\mathbf{X}$、$\mathbf{H}$、$\mathbf{Y}$都加上时序下标同时引入一个新权重$\mathbf{W}_{hh}\in\mathbb{R}^{h\timesh}$得到RNN表达式$$\mathbf{H}_t =\phi(\mathbf{X}_t\mathbf{W}_{xh}+\mathbf{H}_{t-1}\mathbf{W}_{hh}+\mathbf{b}_h)$$ $$\hat{\mathbf{Y}}_t =\text{softmax}(\mathbf{H}_t\mathbf{W}_{hy}+\mathbf{b}_y)$$$\mathbf{H}_0$通常置零####通过时间反向传播和随之带来的问题输入为$\mathbf{x}_t\in\mathbb{R}^x$不考虑偏置隐含层为$$\mathbf{h}_t =\phi(\mathbf{W}_{hx}\mathbf{x}_t+\mathbf{W}_{hh}\mathbf{h}_{t-1})$$则损失函数为$$L =\frac{1}{T}\sum_{t=1}^T\ell(\mathbf{o}_t, y_t)$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$
2018-02-10
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
相关阅读更多精彩内容
- 文章作者:Tyan博客:noahsnail.com | CSDN | 简书 翻译论文汇总:https://gith...