中文NLP笔记:6. 如何做中文短文本分类

中文短文本分类

文本分类是一种有监督学习

例如,输入一条数据,能够判断事情的主体是谁


主要步骤 为:

  1. 加载数据
  2. 数据预处理

  分词

  去停用词

  词形标准化

  3. 文本表示

  抽取词向量特征

    可以尝试 2-gram 和 3-gram

    还可以使用 word2vec 和 doc2vec 等

  4. 将数据分成训练集和测试集

  5. 模型

  进行算法建模和模型训练

  评估、计算 AUC 值,进行预测

  模型对比

  这里可以使用的模型有:朴素贝叶斯,SVM,决策树、随机森林、XGBoost、神经网络等


学习资料:

《中文自然语言处理入门实战》

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容