中文NLP笔记：6. 如何做中文短文本分类

中文短文本分类

文本分类是一种有监督学习

例如，输入一条数据，能够判断事情的主体是谁

主要步骤为：

1. 加载数据
2. 数据预处理

分词

去停用词

词形标准化

3. 文本表示

抽取词向量特征

可以尝试 2-gram 和 3-gram

还可以使用 word2vec 和 doc2vec 等

4. 将数据分成训练集和测试集

5. 模型

进行算法建模和模型训练

评估、计算 AUC 值，进行预测

模型对比

这里可以使用的模型有：朴素贝叶斯，SVM，决策树、随机森林、XGBoost、神经网络等

学习资料：

《中文自然语言处理入门实战》

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

文本清洗+文本分类
系列文章综述这个系列会包含两部分与金融数据处理有关的文章，第一部分分析数据，第二部分从已经分析的数据中进行信息提...
吕不韦阅读 11,406评论 0赞 9
NLP常用专业术语
常用概念：自然语言处理（NLP）数据挖掘推荐算法用户画像知识图谱信息检索文本分类常用技术：词级别...
御风之星阅读 10,013评论 1赞 25

NLP第1课：中文自然语言处理的完整机器处理流程
2016年全球瞩目的围棋大战中，人类以失败告终，更是激起了各种“机器超越、控制人类”的讨论，然而机器真的懂人类吗？...
米饭超人阅读 21,532评论 3赞 57
拥有自我觉知力，才能过上想要的生活
每个人都希望能过上自己想要的生活，什么是自己想要的生活呢？很多人会回答，当然是有闲有钱有爱的生活，是的，每个人都希...
_温渡_阅读 1,502评论 0赞 51
有种温柔，像滑溜溜的鱼
湛蓝的夜空里，海洋做着些静谧的梦，咸腥的微风吹过，稀疏的浪一阵阵涌过，无声无息，无痕无迹。人鱼在云间眨巴着眼睛，忽...
生活恋情阅读 534评论 0赞 0

71赞72赞

赞赏

手机看全文