使用文本情感分类来分析文本作者的情绪
同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用
建模步骤
文本情感分类数据
——读取数据
——预处理数据(先根据文本的格式进行单词的切分,再利用 torchtext.vocab.Vocab 创建词典)
——创建数据迭代器(利用 torch.utils.data.TensorDataset,可以创建 PyTorch 格式的数据集,从而创建数据迭代器)
使用循环神经网络
——双向循环神经网络(加载预训练的词向量、训练模型、评价模型)
使用卷积神经网络
——TextCNN 模型
定义多个一维卷积核,并使用这些卷积核对输入分别做卷积计算
宽度不同的卷积核可能会捕捉到不同个数的相邻词的相关性
对输出的所有通道分别做时序最大池化,再将这些通道的池化输出值连结为向量
通过全连接层将连结后的向量变换为有关各类别的输出。这一步可以使用丢弃层应对过拟合
训练并评价模型