NLP入门 - 新闻文本分类 Task1

Task1 赛题理解

天池大赛:零基础入门NLP - 新闻文本分类

1.1 数据
  • 新闻文本,并按字符级别进行匿名处理
  • 14个候选分类类别(label:0 - 13)
  • 训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本
  • Pandas读取数据代码:
import pandas as pd
train_df = pd.read_csv('data/train_set.csv', sep='\t')
image.png
1.2 评测标准

类别f1_score的均值,越大越好


image.png

可以用sklearn计算:

from sklearn.metrics import f1_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
f1_score(y_true, y_pred, average='macro')
1.3 难点

对匿名字符进行建模,从而完成文本分类(特征提取+分类模型)

1.4 思路
  1. TF-IDF + 机器学习分类器(e.g., SVM, LR, XGBoost)
  2. FastText
  3. WordVec + 深度学习分类器(e.g., TextCNN, TextRNN, BiLSTM)
  4. Bert

Reference:
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aTpCKxe&postId=118252

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容