《Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanism...

这是发表于ACL2018的长文,本文系统地对基于词嵌入的带有池化的简单方法和 LSTM 和 CNN 这样的复杂模型进行了对比。他们发现对大多数数据集而言,基于词嵌入的方法表现出了竞争性,甚至可以说这些方法的表现更胜一筹。本文的实验非常细致认真,并没有提出新的模型,而是从实验中解释了现有任务最重要的信息和现有模型的缺陷,非常有启发性。对于不同数据构建模型也非常具有指导意义。

In this paper, we conduct a point-by-point comparative study between Simple Word-Embedding-based Models (SWEMs), consisting of parameter-free pooling operations, relative to word-embedding-based RNN/CNN models. Surprisingly, SWEMs exhibit comparable or even superior performance in the majority of cases considered. Based upon this understanding.

在句子建模中,词向量通常是第一步,然后使用各种的组成函数(论文中为compositional function)将句子矩阵编码压缩成一个向量:X \to z。现有的深度学习模型中最常用的组成函数有RNN和CNN,本文提出了一种基于词向量的简单模型Simple Word-Embedding-based Models(SWEMS)和上两种深度学习模型对比。具体来说提出了四种不同的SWEMS:

  • SWEM-aver:将一个句子所有词向量求平均得到句子表示。
  • SWEM-max:将一个句子所有词向量在不同维度进行max-pooling。
  • SWEM-concat:将SWEMS-aver和SWEMS-max拼接。
  • SWEM-hier:使用不同宽度的卷积核对每个窗口进行average-pooling,然后再进行max-pooling得到一个标量,然后将不同宽度卷积核对应的值拼接。这种策略作者称为hierarchical pooling。

上面四种组成函数非常简单,没有任何的可学习参数。实验采用的词向量是300维的GloVe词向量,为了适应不同数据集,在训练时首先将词向量通过300维的带有relu激活的MLP,相当于在输入到组成函数前多走了一步。

作者在多个不同数据集上进行了实验:

Document Categorization

在文本分类的结果如下:



上图中Yahoo! Answer、AG News和DBPedia是领域识别数据集,而Yelp Polarity 和Yelp Full是情感分类数据集。可以看出简单的SWEMS几乎在所有的数据集上超过了深度学习的模型。不过对于情感分类的两个数据集来说,深度学习模型还是比简单的SWEMS-aver、max和concat模型好的,因为情感分析对与语序非常敏感,如'not really good'和'really not good'的情感是不同的。但是SWEM-hier仍然和深度学习模型效果相当,原因在于SWEMS-hier捕获到了n-gram的信息,对于这种序列信号重要的任务十分有效。然而在领域分类问题中,对于序列顺序并不敏感,因此用SWEM能获得较好的效果。从这个角度,对句子建模的方法就退化成了一个词袋模型了。

另外从这个实验中还可以发掘的一点是,如果将词向量加入到训练参数中,当采用SWEM-max训练时,词向量会倾向于非常稀疏,如下图:


导致向量稀疏的主要原因还是领域识别问题中,决定一个句子类别的是关键词,因此模型倾向于将关键词的词向量幅度变大,以便于max-pooling操作的捕捉。如果将词向量幅度大的词列举出来,发现刚好是这个领域的关键词,如下表:

这其实也提供了一个除了TF-IDF以外寻找关键词的思路。

Text Sequence Matching

在匹配任务上的结果如下:


如果使用基于表示的模型,简单的SWEM在不同的匹配任务上都能和深度学习的模型效果相当。实际上这个结果在之前的ARC的论文中就已经有了,当时作者使用的一个baseline就是SWEM-aver,在MSRP上达到了68.7的准确率和80.49的的F1值,甚至好于作者提出的模型ARC-I,而ARC-I实际上就是本文CNN的一个变种。从这个实验以及上面的分类实验结果上看,判断句子关系或者分类的任务似乎和语序关系不大,因为编码了位置信息的CNN和RNN也不过如此。为了验证这个观点,作者将训练集中的句子顺序随机打乱,然后再用LSTM进行训练,得到了下面的结果:

结果确实令人非常吃惊,在SNLI数据集上的效果下降很小,而在Yahoo上的效果居然还提升了。可以看出这两个任务确实和语序关系不大,另外LSTM从这两个数据集中也确实没有学到太多的语序特征。而在Yelp Polarity上的衰减还是比较明显,也符合之前的实验结论,即对于情感分析任务,语序确实是一个比较重要的特征。

Short Sentence Processing

之前的文本分类任务中,实验的数据集中每一个句子都比较长,这里在句子长度较短的数据集上进行了实验,结果如下:



这时候SWEM的效果就比深度模型差了。原因作者分析为短句受到顺序的影响较大,而SWEM不能对顺序进行建模。

从上面的实验,本文主要有以下几个结论:

• Simple pooling operations are surprisingly effective at representing longer documents (with hundreds of words), while recurrent/convolutional compositional functions are most effective when constructing representations for short sentences.
• Sentiment analysis tasks are more sensitive to word-order features than topic categorization tasks. However, a simple hierarchical pooling layer proposed here achieves comparable results to LSTM/CNN on sentiment analysis tasks.
• To match natural language sentences, e.g., textual entailment, answer sentence selection, etc., simple pooling operations already exhibit similar or even superior results, compared to CNN and LSTM.
• In SWEM with max-pooling operation, each individual dimension of the word embeddings contains interpretable semantic patterns, and groups together words with a common theme or topic.

另外文章的附录还做了一个实验,探究了不同模型的鲁棒性,方法是只使用原始数据集的一部分数据来训练,然后评估效果,结果如下:



这分别是Yahoo和SNLI数据集上的结果,可以看出SWEM非常鲁棒性,在数据量小的情况下依然效果不错。而深度学习模型受制于过拟合,在小数据上的结果很差。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容