今晚刚刚在学习transformer的文本分类。
文本分类(也称为文本归类)是一种将文档(句子、Twitter帖子、图书章节、电子邮件内容等)映射到预定义列表(类)中类别的方法。
对于两个有正负标签的类别,本文称之为二元分类(binary classification),更具体地说,称之为情感分析(sentiment analysis)
对于两个以上的类,本文称之为多类别分类(multi-class classification),其中各个类别之间是互斥的;或者称之为多标签分类(multi-label classification),其中各个类别之间不是互斥的,这意味着一个文档可以接收多个标签。
对于句子对任务(如文档相似性或文本蕴含),输入不是一个句子,而是两个句子。
另一个句子对任务是文本蕴含(textual entailment),其中问题被定义为多类别分类。