豆瓣评分预测

中文分词

中文分词包jieba,用jieba对原始文本做分词。

文本预处理

1. 去掉无用的字符

2. 去掉停用词

3. 去掉低频词

文本特征提取

1. 把文本分为训练集和测试集

2. 把文本转换为向量的形式:tf-idf向量、word2vec(CBoW,SkipGram)、bert

模型搭建与模型训练、评估

1. 搭建模型

2. 训练模型(并做交叉验证):找最好参数-训练模型-在测试集上的准确率&F1-score

3. 输出最好的结果

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容