2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION

2018 · ICLR · A NEW METHOD OF REGION EMBEDDING FOR TEXT CLASSIFICATION

想法来源:为了挖掘深层的语法信息,利用上下文来表示word,利用n-gram来表示上下文,参数会过多,本文提出的方法可以解决上面的问题。

价值:探索了上下文n-gram对词表示的影响。

方法:新的用上下文表示词embedding的解决方案,一个词对应着一个n-gram上下文矩阵,这个矩阵不随着它的上下文变化而变化,可以挖掘深层语义信息。

缺点:参数过多,不容易训练。

详细方案:一个词,构建一个n-gram矩阵,表示其上下文,这个矩阵不随上下文单词变化而变化,是个维度固定的矩阵。
Word-Context Region Embedding:对于输入的句子其n-gram的上下文,每一个词的embedding,与上下文矩阵中对应位置的列向量做element-wise mul,然后max-pool
Context-Word Region Embedding:对于输入的句子其n-gram的上下文,上下文中的每一个词各自的上下文向量,抽取出当前n-gram核心词的相对位置的列向量,拿出来与上下文矩阵中对应位置的列向量做element-wise mul,然后max-pool

数据集

  1. Yelp Review Polarity
  2. Yelp Review Full
  3. Amazon Review Polarity
  4. Amazon Review Full
  5. AG’s News
  6. Sogou News
  7. Yahoo! Answers
  8. DBPedia

实验

baseline result

image

n-gram n的大小和embedding size的影响

image

详细对比了加入context表示的影响


-c400

后面还做了可视化

训练时间,参数规模,收敛速度


image
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容