中文数据预处理

我们拿到的数据是微博上的一条条推文(公开数据),内容有汉字有数字也有各种特殊符号,目标呢,是做成一个词典,方便后续进行one-hot编码,然后计算word_embedding。



1. 只保留中文字符、分词

2. 给词典中每个词one-hot编码,返回一个字典,格式:{词: one-hot编码}


词典中:

one-hot后:

然后把每个词通过torch.nn.Embedding转换成设定维度的词向量

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容