利用词嵌入和长短期记忆人工神经网络的行动性和政治性文本分类(论文读书笔记)

Actionable and Political Text Classification using Word Embeddings and LSTM

Rao A, Spasojevic N. Actionable and Political Text Classification using Word Embeddings and LSTM[J]. arXiv preprint arXiv:1607.02501, 2016.

关键词

文本分类;社交媒体;深度学习;神经网络;LSTM模型;可行动性;政治


目标问题

在文本分类领域,大量的研究是关于情感挖掘问题,而其他形式的文本分类则研究得相对较少。在一部分应用场景下,只获取文本的情感分类不足以提供充分的信息来满足应用需求。论文考虑使用基于应用上下文标准的文本分类。其中应用的技术包括:词嵌入和长短期记忆人工神级网络。具体应用为文本可行动性分类政治倾向分类。


论文主要贡献

词嵌入已经被证明是文本语义特征提取的有效工具,LSTM网络能有效完成与文本序列有关的任务。论文将两者结合来解决基于上下文的文本分类问题。


方法与模型

预处理

输入的信息被分词(tokenized)后作为神经网络的输入。每一个词例(token)的词频作为其索引。词频排名前V的词例组成词汇库。每一条信息可以被转化为词频索引序列。论文选择一个最大允许长度作为每一个索引序列的固定长度,如果索引序列实际长度小于最大允许长度,用数字0补充多余的索引。

神经网络架构

递归神经网络(Recurrent Neural Networks,RNNs) 是神经网络的一类。与传统升降网络不同的是,RNNs使用一种具有内部状态、能保存前向事件信息的单元(unit),因此非常适用于需要处理连续信息的场合,比如文本处理。

传统的RNNs不能保存长期依赖关系,长短期记忆(Long Short Term Memory ,LSTM)神经网络则能避免这个问题。

论文使用的神经网络模型应用了词嵌入和LSTM单元实现基于上下文的文本分类,具体的神经网络层次结构如下:



嵌入层

网络的第一层是嵌入层。嵌入层的目的是建立离散词汇库中的词语到低维向量空间的映射。这种词汇的分布式表示在建立概念之间的关系上具有极大优势。通过嵌入层,实现了文本特征的自动提取,无需手动定义特征。

LSTM层

网络的第二层是LSTM层。LSTM层由若干个LSTM单元组成。一个LSTM单元相当于一个记忆细胞,由四部分组成:一个输入门,一个一个自循环连接,一个遗忘门以及一个输出门。

退出层

退出(Dropout)是神经网络中避免过拟合的一种调节机制,通过随机中止部分神经单元来避免共同适应。

充分连接层

充分连接层中,上一层所有的激活都充分连接。这一层用来学习高层次特征间的非线性结合。

损失层

这一层用来衡量预测结果和实际结果之间的偏差。论文使用二维交叉熵作为损失函数。


实验一:可行动性预测

可行性实验判断是将消息划分为可行动的或者非可行动的两类。

数据集

数据集来源于一个社交媒体平台。该平台帮助代理代表公司对顾客来信进行回复。平台整合了多个社交媒体平台,包括Twitter、Facebook、google+、品牌社区以及在线论坛。

监督训练的标签通过以下方式收集:如果代理对一条信息进行了回复,这条信息则被标注为可行动的(Actionable),用1作为标签;反之则为非可行动性的(Non-Actionable),用0作为标签。论文使用了从2014.11.1到2015.05.1为期6个月的数据,收集了同等数量的可行动数据集和非可行动性数据集。80%的数据集用来训练,余下的20%用来测试。实验针对多种语言,因此每一种语言都包括一组训练集和测试集。实验还包括一组包含所有语言的数据集。数据集大小随语言变化,最小的2.7万条信息(Farsi)到最大的850万条信息(English)。混合语言数据集规模为170万。

实验结果

实验结果分析

与传统神经网络比较,在Arabic以外的其他语种,论文使用的LSTM神经网络预测精度上表现更佳。具体结果见下表:

模型建立中的一个参数变量是词表规模,记作V。如table 1所示,实验选取了V的两个值,20,000和100,000。从整体实验结果来看,两个词表的测试集精度相差不大。这表明较小的数据集同样能有效预测消息的可行动性,并且模型训练时间开销更小。


实验二:政治倾向预测

第二个文本分类任务是判断与美国政治相关的政治倾向。根据消息中表现出的观点,将消息分为民主党或者共和党。

数据集

数据收取方式:根据twitter上其他用户创建的twitter 名单,选取Twitter上政治倾向明确的用户。收集这些用户从2015.10.12到2016.1.12为期三个月发布的信息。如果是民主党,则标记为0,如果是共和党则标记为1。训练集和测试集的比例为8:2,规模分别为336,000和84,000。

训练与评估

使用与第一个实验相同的神将网络模型(嵌入层和LSTM层各有128个单元),得到的结果为:训练集的精度为88.82%,测试集的精度为87.57%。

模型参数对训练结果的影响

嵌入层、LSTM层的单元数变化对模型精度的影响参考Figure 2。Figure 2(a)显示当LSTM为固定64个单元时,模型精度随嵌入层单元数量的变化情况;Figure 2(b)显示当嵌入层为固定128个单元时,模型精度随LSTM单元数量的变化情况;Figure 3(b)显示当LSTM层和嵌入层单元数量同时增长时,模型精度的变化情况。

优化器(optimizers):Adam优化器精度最高,为87.57%;其次是Adagrad,为87.12%;RM-Sprop,87.06%

批规模(batch size):较小的批规模会使模型精度稍微提高,但较大的批则使模型收敛的更快。实验结果表明,当批大小为64时,模型精度达到87.57%,并且相对收敛较快。

激活函数(activation):使用sigmoid激活函数比tanh函数在准确度上提高了0.5%。

从Figure2可以看出,模型精度随着LSTM层和嵌入层单元数量增加呈现增长趋势,但是关于参数如何选择仍然是一个开放问题。但Figure2表明,随着参数变化,模型精度在一个较小的区间浮动,变化总体相对较小。另外,使用规模较小的网络在训练时间和内存限制上存在优势。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容