论⽂种类分类

4.1 任务说明

学习主题:论⽂分类(数据建模任务),利⽤已有数据建模,对新论⽂进⾏类别分类;

学习内容:使⽤论⽂标题完成类别分类;

学习成果:学会⽂本分类的基本⽅法、 TF-IDF 等;

4.2 数据处理步骤

在原始arxiv论⽂中论⽂都有对应的类别,⽽论⽂类别是作者填写的。在本次任务中我们可以借助论⽂的标题和摘要完成:

对论⽂标题和摘要进⾏处理;

对论⽂类别进⾏处理;

构建⽂本分类模型;

4.3 ⽂本分类思路

思路1:TF-IDF+机器学习分类器

直接使⽤TF-IDF对⽂本提取特征,使⽤分类器进⾏分类,分类器的选择上可以使⽤SVM、LR、XGboost等

思路2:FastText

FastText是⼊⻔款的词向量,利⽤Facebook提供的FastText⼯具,可以快速构建分类器

思路3:WordVec+深度学习分类器

WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的⽹络结构可以选择TextCNN、TextRnn或者BiLSTM。

思路4:Bert词向量

Bert是⾼配款的词向量,具有强⼤的建模学习能⼒。


©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容