Hierarchical Attention Networks for Document Classification

HAN

hierarchy指的是两层--word层和sentence层,模型很简单,想法很自然

  1. word embedding
  2. bi-gru 作为word encoder
  3. word attention
  4. bi-gru 作为sentence encoder
  5. sentence attention
  6. softmax + logloss

细节:
预处理中过滤掉词频小于5的词用UNK取代,embedding层采用预训练的word2vec权重。
embedding_size设置为200,rnn_size为50(由于是双向故实际为100),rnn到的attention激活函数为tanh。

评估结果:


Evaluation

总结:
rnn结构更多地阐述一种远近邻连接关系,但没有告诉我们对某一个task来说连接中那些部分比较重要,而attention机制很好地解决了这个问题。对于长文本来说,不止一句话内有重要的词,一段之内也有重要的句子,这就是hierarchial attention设计的基本思想。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容