摘要
一句话总结:使用词向量来表示单词或短语;进而使用句子或者文档中单词或短语来表示它们的特征。
主要工作
词的上下文模型介绍:
D是数据集,w是词向量,θ是参数,wi是目标词,wn是人为噪声,k是因子
通过上述处理可以很自然的将前馈神经网络lookup →linear →hTanh→linear.查找层的输入是目标词w 和上下文词h 的连接, 输出是长度为1 的线性层, 表示上下文词h 和目标词w 之间的相关性。
.情感极性模型
排名模型不需要计算概率,故出去了softmax层
混合情感极性模型
将上下文预测模型和性感极性判断模型融合
损失函数为:
其中α为权重系数
数据集
对于中文情感词向量定量评估, 本实验选取中文极性情感词典NTUSD(National Taiwan University Sentiment DicGtionary)中的情感词作为候选词集合. 词向量训练数据集取自于CORA2014 任务手机领域的评论, 选择其中2232 条积极评论和2146 条消极评论. 考虑到词向量的训练语料库不能完全覆 盖NTUSD 中 的 所 有 词, 实 验 选 用 词 向 量 集 合 与NTUSD 的交集作为中文实验数据集, 最终得到积极词1285个, 消极词2804 个.对于英文情感词向量定量评估, 词向量训练的数据集取自NRC(National Research Council) 推文. 使用两个人工标注的情感词典, 即 BL(Basic Language) 情感词典与 NRC 情感词典. 同样地, 取词向量集合与两个情感词典的交集作为英文实验数据集在将数据输入到情感词向量训练模型之前, 首先对数据进行预处理工作
(1)对于英文评论数据, 将所有的词转化为小写;
(2)对于中文评论数据, 将所有的评论文本进行分词处理, 对于中 英 文 数 据, 分 别 使 用 NLPIR ( Natural LanguageProcessing & Information Retrieval Sharing Platform )和Stanford CoreNLP 提供的分词工具进行分词
结果:
情感词获取实验
给定一个情感词作为输入, 首先, 找出情感词典中最接近该词的前 Nw 个词. 本文将 Nw 设置为10 和30来评估情感词向量的性能. 两个词的邻近度通过词向量之间的相似性(例如余弦) 来测量. 然后, 计算这些邻近词与目标情感词具有相同的情感极性的百分比
模型更为优秀,α=0.5-0.6时,性能最佳
词级情感词向量实验
从情感词典中选取部分词做训练集, 训练分类模型, 将3 个情感词典(BL,NRC 和NTUSD) 进行二进制极性分类, 预测其他词是表达积极还是消极的意义, 衡量其准确性. 其中, 词的连续词向量可以作为其分类的特征。
.模型更为优秀。