[学习笔记]使用神经网络分析电影评论的正能量与负能量

背景介绍

这次主要将神经网络直接运用到具体的分析项目中，使用keras来判断用户在网络上编写的影评中包含的是正能量还是负能量。

数据集介绍

本次主要使用imdb（Internet Movie Database）数据集，数据集在这->imdb。
这数据集包含了50000条偏向明显的评论，其中25000条作为训练集，25000作为测试集。label为pos(positive)和neg(negative)。
我们来看看这些数据

from keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=100)

print(train_data[0])
print(train_labels[0])

这一份数据采用了一种神奇的结构，即所谓单词向量，这份数据对应一份单词频率表，这份表的数据结构如图所示

频率单词表

其中的数字既代表单词出现的频率，第一个数字1，即代表频率出现排名第一的单词；对应表下载;

其中做的标记中，分为1，0两种，1代表正能量，0代表负能量

让我们来看看这段影评长什么样。


word_index = imdb.get_word_index()
#我们要把表中的对应关系反转一下，变成key是频率，value是单词
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
decoded_review = ' '.join([reverse_word_index.get(i-3, '?') for i in train_data[0]])
print(decoded_review)

image.png

在train_data所包含的数值中，数值1，2，3对应的不是单词，而用来表示特殊含义，1表示“填充”，2表示”文本起始“，
3表示”未知“，因此当我们从trai
n_data中读到的数值是1，2，3时，我们要忽略它，从4开始才对应单词，如果数值是4，
那么它表示频率出现最高的单词is


import numpy as np

def vectorize_sequences(sequences, dimension=10000):
 
    results = np.zeros((len(sequences),dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

以上函数为的是把每个评论转换成一个矩阵，一条评论对应一个矩阵，矩阵的行对应单词数量，矩阵的列长度是一万，代表一万个单词数量，这一万个数一开始全为0，将出现的词置为1.从头到底进行排序，接下来为了方便运算，我们将其转换成浮点数。

y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')


接下来我们开始构建神经网络，我们构建一个四层的神经网络。第一层输入有10000个结点。第二层，第三层有16个节点，第四层有一个节点，输出一个概率值。


from keras import models
from keras import layers

model = models.Sequential()
#构建第一层和第二层网络，第一层有10000个节点，第二层有16个节点
#Dense的意思是，第一层每个节点都与第二层的所有节点相连接
#relu 对应的函数是relu(x) = max(0, x)，相当于神经元函数
model.add(layers.Dense(32, activation='relu', input_shape=(10000,)))
#第三层有16个神经元，第二层每个节点与第三层每个节点都相互连接
model.add(layers.Dense(32, activation='relu'))
#第四层只有一个节点，输出一个0-1之间的概率值
model.add(layers.Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

optimizer参数指定的是如何优化链路权重，事实上各种优化方法跟我们前面讲的梯度下降法差不多，只不过在存在一些微小的变化，特别是在更新链路权值时，会做一些改动，但算法主体还是梯度下降法。当我们的网络用来将数据区分成两种类型时，损失函数最好使用,输出是两种时，binary_crossentroy,它的表达式如下：
Hy′(y):=−∑i(y′ilog(y[i])+(1−y′[i])log(1−y[i]))
其中y[i]对应的是训练数据提供的结果，y'[i]是我们网络计算所得的结果。metrics用于记录网络的改进效率，我们暂时用不上。接着我们把训练数据分成两部分，一部分用于训练网络，一部分用于检验网络的改进情况：

x_val = x_train[:10000]
partial_x_train = x_train[10000:]

y_val = y_train[: 10000]
partial_y_train = y_train[10000:]
history = model.fit(partial_x_train, partial_y_train, epochs=20, batch_size=512, 
                    validation_data = (x_val, y_val))

训练数据总共有60000条，我们把最前一万条作为校验数据，用来检测网络是否优化到合适的程度，然后我们把数据从第一万条开始作为训练网络来用，把数据分割好后，调用fit函数就可以开始训练过程，上面代码运行后结果如下：


import matplotlib.pyplot as plt

acc = history.history['acc']
val_acc = history.history['val_acc']
loss = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(1, len(acc) + 1)
#绘制训练数据识别准确度曲线
plt.plot(epochs, loss, 'bo', label='Trainning loss')
#绘制校验数据识别的准确度曲线
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Trainning and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

image.png

我们看上面图示能发现一个问题，随着迭代次数的增加，网络对训练数据识别的准确度越来越高，也就是loss越来越低，然后校验数据的识别准确的却越来越低，这种现象叫“过度拟合”，这意味着训练的次数并不是越多越好，而是会“过犹不及”，有时候训练迭代次数多了反而导致效果下降。从上图我们看到，大概在第4个epoch的时候，校验数据的识别错误率开始上升，因此我们将前面的代码修改，把参数epochs修改成4才能达到最佳效果。训练好网络后，我们就可以用它来识别新数据，我们把测试数据放入网络进行识别，代码如下：

model.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=2, batch_size=512)
results = model.evaluate(x_test, y_test)

![image.png](https://upload-images.jianshu.io/upload_images/16487280-4a050e3a67ac79a7.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)