中文数据预处理

我们拿到的数据是微博上的一条条推文（公开数据），内容有汉字有数字也有各种特殊符号，目标呢，是做成一个词典，方便后续进行one-hot编码，然后计算word_embedding。

1. 只保留中文字符、分词

2. 给词典中每个词one-hot编码，返回一个字典，格式：{词: one-hot编码}

词典中：

one-hot后：

然后把每个词通过torch.nn.Embedding转换成设定维度的词向量

使用自然语言处理方法对IMDb影评数据集进行情感分析（持续更新）
序列模型介绍在机器学习的任务中，很多任务其实都可以看作序列的模型。所谓序列，就是指这个模型中的元素不再独立，而是...
魏允臣阅读 2,863评论 0赞 8
4.1 文本预处理
文本预处理 1.1 认识文本预处理学习目标: 了解什么是文本预处理及其作用. 了解文本预处理中包含的主要环节. ...
迟耿耿阅读 2,375评论 0赞 0
跟我一起学PyTorch-07：嵌入与表征学习
前面介绍了深度神经网络和卷积神经网络，这些神经网络有个特点：输入的向量越大，训练得到的模型越大。但是，拥有大量参数...
金字塔下的小蜗牛阅读 3,089评论 2赞 7
Pytorch框架使用
介绍相比TensorFlow的静态图开发，Pytorch的动态图特性使得开发起来更加人性化，选择Pytorch的...
dawsonenjoy阅读 25,072评论 2赞 18
自然语言处理神经网络模型入门
主要内容自然语言输入编码前馈网络卷积网络循环网络(recurrent networks ) 递归网络(re...
JackHorse阅读 4,303评论 0赞 2

赞1赞

赞赏

手机看全文