Task1 赛题理解
1.1 数据
- 新闻文本,并按字符级别进行匿名处理
- 14个候选分类类别(label:0 - 13)
- 训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本
- Pandas读取数据代码:
import pandas as pd
train_df = pd.read_csv('data/train_set.csv', sep='\t')
1.2 评测标准
类别f1_score的均值,越大越好
可以用sklearn计算:
from sklearn.metrics import f1_score
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
f1_score(y_true, y_pred, average='macro')
1.3 难点
对匿名字符进行建模,从而完成文本分类(特征提取+分类模型)
1.4 思路
- TF-IDF + 机器学习分类器(e.g., SVM, LR, XGBoost)
- FastText
- WordVec + 深度学习分类器(e.g., TextCNN, TextRNN, BiLSTM)
- Bert
Reference:
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.6.6406111aTpCKxe&postId=118252