[学习笔记]使用神经网络分析电影评论的正能量与负能量

背景介绍

这次主要将神经网络直接运用到具体的分析项目中,使用keras来判断用户在网络上编写的影评中包含的是正能量还是负能量。

数据集介绍

本次主要使用imdb(Internet Movie Database)数据集,数据集在这->imdb
这数据集包含了50000条偏向明显的评论,其中25000条作为训练集,25000作为测试集。label为pos(positive)和neg(negative)。
我们来看看这些数据

from keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=100)
print(train_data[0])
print(train_labels[0])

这一份数据采用了一种神奇的结构,即所谓单词向量,这份数据对应一份单词频率表,这份表的数据结构如图所示

频率单词表

其中的数字既代表单词出现的频率,第一个数字1,即代表频率出现排名第一的单词;对应表下载;

其中做的标记中,分为1,0两种,1代表正能量,0代表负能量

让我们来看看这段影评长什么样。


word_index = imdb.get_word_index()
#我们要把表中的对应关系反转一下,变成key是频率,value是单词
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
decoded_review = ' '.join([reverse_word_index.get(i-3, '?') for i in train_data[0]])
print(decoded_review)

image.png

在train_data所包含的数值中,数值1,2,3对应的不是单词,而用来表示特殊含义,1表示“填充”,2表示”文本起始“,
3表示”未知“,因此当我们从trai
n_data中读到的数值是1,2,3时,我们要忽略它,从4开始才对应单词,如果数值是4,
那么它表示频率出现最高的单词is


import numpy as np

def vectorize_sequences(sequences, dimension=10000):
 
    results = np.zeros((len(sequences),dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

以上函数为的是把每个评论转换成一个矩阵,一条评论对应一个矩阵,矩阵的行对应单词数量,矩阵的列长度是一万,代表一万个单词数量,这一万个数一开始全为0,将出现的词置为1.从头到底进行排序,接下来为了方便运算,我们将其转换成浮点数。

y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')


接下来我们开始构建神经网络,我们构建一个四层的神经网络。第一层输入有10000个结点。第二层,第三层有16个节点,第四层有一个节点,输出一个概率值。


from keras import models
from keras import layers

model = models.Sequential()
#构建第一层和第二层网络,第一层有10000个节点,第二层有16个节点
#Dense的意思是,第一层每个节点都与第二层的所有节点相连接
#relu 对应的函数是relu(x) = max(0, x),相当于神经元函数
model.add(layers.Dense(32, activation='relu', input_shape=(10000,)))
#第三层有16个神经元,第二层每个节点与第三层每个节点都相互连接
model.add(layers.Dense(32, activation='relu'))
#第四层只有一个节点,输出一个0-1之间的概率值
model.add(layers.Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

optimizer参数指定的是如何优化链路权重,事实上各种优化方法跟我们前面讲的梯度下降法差不多,只不过在存在一些微小的变化,特别是在更新链路权值时,会做一些改动,但算法主体还是梯度下降法。当我们的网络用来将数据区分成两种类型时,损失函数最好使用,输出是两种时,binary_crossentroy,它的表达式如下:
Hy′(y):=−∑i(y′ilog(y[i])+(1−y′[i])log(1−y[i]))
其中y[i]对应的是训练数据提供的结果,y'[i]是我们网络计算所得的结果。metrics用于记录网络的改进效率,我们暂时用不上。接着我们把训练数据分成两部分,一部分用于训练网络,一部分用于检验网络的改进情况:

x_val = x_train[:10000]
partial_x_train = x_train[10000:]

y_val = y_train[: 10000]
partial_y_train = y_train[10000:]
history = model.fit(partial_x_train, partial_y_train, epochs=20, batch_size=512, 
                    validation_data = (x_val, y_val))

训练数据总共有60000条,我们把最前一万条作为校验数据,用来检测网络是否优化到合适的程度,然后我们把数据从第一万条开始作为训练网络来用,把数据分割好后,调用fit函数就可以开始训练过程,上面代码运行后结果如下:


import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)
#绘制训练数据识别准确度曲线
plt.plot(epochs, loss, 'bo', label='Trainning loss')
#绘制校验数据识别的准确度曲线
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Trainning and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()
image.png

我们看上面图示能发现一个问题,随着迭代次数的增加,网络对训练数据识别的准确度越来越高,也就是loss越来越低,然后校验数据的识别准确的却越来越低,这种现象叫“过度拟合”,这意味着训练的次数并不是越多越好,而是会“过犹不及”,有时候训练迭代次数多了反而导致效果下降。从上图我们看到,大概在第4个epoch的时候,校验数据的识别错误率开始上升,因此我们将前面的代码修改,把参数epochs修改成4才能达到最佳效果。 训练好网络后,我们就可以用它来识别新数据,我们把测试数据放入网络进行识别,代码如下:

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=2, batch_size=512)
results = model.evaluate(x_test, y_test)

![image.png](https://upload-images.jianshu.io/upload_images/16487280-4a050e3a67ac79a7.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356