登录注册写文章

豆瓣评分预测

豆瓣评分预测

中文分词

中文分词包jieba，用jieba对原始文本做分词。

文本预处理

1. 去掉无用的字符

2. 去掉停用词

3. 去掉低频词

文本特征提取

1. 把文本分为训练集和测试集

2. 把文本转换为向量的形式：tf-idf向量、word2vec（CBoW,SkipGram）、bert

模型搭建与模型训练、评估

1. 搭建模型

2. 训练模型（并做交叉验证）：找最好参数-训练模型-在测试集上的准确率&F1-score

3. 输出最好的结果

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

# NLP第5课：面向非结构化数据转换的词袋和词向量模型
通过前面几个小节的学习，我们现在已经学会了如何获取文本预料，然后分词，在分词之后的结果上，我们可以提取文本的关键词...
Element静婷阅读 1,045评论 0赞 1
NLP 学习资源
2021年 1月31日贪心学院高级课程课程拼团 PART1: 基础篇自然语言处理概述 | 什么是自然语言处理...
红烧肉_2121阅读 341评论 0赞 0
词向量
目前词向量主要用的技术 word2vec fasttext glove 1 one-host编码 one-hot编...
georgeguo阅读 2,376评论 0赞 2
第6课：面向非结构化数据转换的词袋和词向量模型
通过前面几个小节的学习，我们现在已经学会了如何获取文本预料，然后分词，在分词之后的结果上，我们可以提取文本的关键词...
一纸繁鸢w阅读 598评论 0赞 0
139自然语言处理通关手册--词汇的分布式表征
词汇的分布式表征词向量的基本原理在介绍词向量的原理之前，首先解释什么是词嵌入（Word Embedding）。...
Jachin111阅读 764评论 0赞 0

赞1赞

赞赏

手机看全文