前言
大家好,我是阿光。
本专栏整理了《PyTorch深度学习项目实战100例》,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。
正在更新中~ ✨
🚨 我的项目环境:
- 平台:Windows10
- 语言环境:python3.7
- 编译器:PyCharm
- PyTorch版本:1.8.1
💥 项目专栏:【PyTorch深度学习项目实战100例】
一、使用LSTM进行谣言检测
本项目使用基于循环神经网络(LSTM)的谣言检测模型,将文本中的谣言事件进行连续向量化,通过循环神经网络的学习训练来挖掘表示文本深层的特征,避免了特征构建的问题,并能发现那些不容易被人发现的特征,从而产生更好的效果。
二、数据集介绍
本项目中使用的数据是微博头条新闻数据,该数据集的下载网址为:下载链接 ,该数据集一共有3387条新闻数据,新闻的类型分为两类:“谣言新闻”和“真实新闻”,该数据集的前几行如下:
由于新闻数据敏感,所以进行打马赛克,
三、项目实现思路
本项目使用的是LSTM,如果使用普通MLP网络依然可以实现二分类,但是对于文本信息,他不同词之间是存在语义关系的,并不是独立的,每个词会受语境及上下文
所影响,如果使用传统模型是捕捉不到这层关系。
所以考虑使用循环神经网络,可以将不同时间步的数据向下进行传递,将上文语境信息向后传入进行分析。
四、加载文本数据
由于数据集中是每一个样本为一句话,这样是不可以进行训练的,所以需要将其转化为数值信息。
- 首先需要获得
词汇表
,就是训练样本中所有出现的字 - 然后将其转化为
字典
,键为字,值为对应的编号,用于进行映射 - 将每一句话进行映射形成对应的数值编号
- 如果每一行的字数不够
input_shape
,那么就使用0进行填补
,保持送入网络模型中的数据的维度是一致的
五、定义网络结构
项目中使用的模型是LSTM,在模型中我们定义了三个组件,分别是embedding层
,lstm层
和全连接层
。
- Embedding层:将每个词生成对应的
嵌入向量
,就是利用一个连续型向量来表示每个词 - Lstm层:提取语句中的语义信息
- Linear层:将结果映射成2大小用于二分类,即谣言和非谣言的概率
注意:在LSTM网络中返回的值为最后一个时间片
的输出,而不是将整个output全部输出,因为我们是需要捕捉整个语句的语义信息,并不是获得特定时间片的数据。
六、模型训练
# 6.模型训练
model = LSTM(vocab_size=len(word_dictionary), hidden_dim=hidden_dim, num_layers=num_layers,
embedding_dim=embedding_dim, output_dim=output_dim)
Configimizer = optim.Adam(model.parameters(), lr=lr) # 优化器
criterion = nn.CrossEntropyLoss() # 多分类损失函数
model.to(device)
loss_meter = meter.AverageValueMeter()
best_acc = 0 # 保存最好准确率
best_model = None # 保存对应最好准确率的模型参数
for epoch in range(epochs):
model.train() # 开启训练模式
epoch_acc = 0 # 每个epoch的准确率
epoch_acc_count = 0 # 每个epoch训练的样本数
train_count = 0 # 用于计算总的样本数,方便求准确率
loss_meter.reset()
train_bar = tqdm(train_loader) # 形成进度条
for data in train_bar:
x_train, y_train = data # 解包迭代器中的X和Y
x_input = x_train.long().transpose(1, 0).contiguous()
x_input = x_input.to(device)
Configimizer.zero_grad()
# 形成预测结果
output_ = model(x_input)
# 计算损失
loss = criterion(output_, y_train.long().view(-1))
loss.backward()
Configimizer.step()
loss_meter.add(loss.item())
# 计算每个epoch正确的个数
epoch_acc_count += (output_.argmax(axis=1) == y_train.view(-1)).sum()
train_count += len(x_train)
# 每个epoch对应的准确率
epoch_acc = epoch_acc_count / train_count
# 打印信息
print("【EPOCH: 】%s" % str(epoch + 1))
print("训练损失为%s" % (str(loss_meter.mean)))
print("训练精度为%s" % (str(epoch_acc.item() * 100)[:5]) + '%')
# 保存模型及相关信息
if epoch_acc > best_acc:
best_acc = epoch_acc
best_model = model.state_dict()
# 在训练结束保存最优的模型参数
if epoch == epochs - 1:
# 保存模型
torch.save(best_model, './best_model.pkl')
七、语句测试
实现规定好input_shape
,如果不够使用0进行填补,方便送入网络当中。
读取模型以及相应的词序号映射信息
,然后将我们待测试的话转成相应的tensor,送入网络中,然后的tensor为2维
,即对应正面和反面的概率,然后使用argmax函数获得最大值对应的索引。
完整源码
【PyTorch深度学习项目实战100例】—— 基于pytorch使用LSTM进行谣言检测 | 第8例咕 嘟的博客-CSDN博客谣言检测数据集