Task0-赛题理解
本次NLP实践是一次新闻文本分类,有监督分类模型,共有14个标签,20w训练集,5w测试集。
分析思路:
(1)EDA数据探索:
首先分析14个标签类别的分布情况,是否为非均衡数据集;
其次探索新闻文本字符长度的分布情况,为后续构造词向量模型的max_feature参数做准备;
最后由于数据集做了匿名处理,无法直接根据词表构建出停用词表,所以只能通过字符覆盖率(>99%)来筛选出停用词;
(2)机器学习建模
TFIDF + 岭回归/SVM/朴素贝叶斯
(3)深度学习建模
fasttext/word2vec+TextCNN/Bert
(4)评估指标
F1值