无监督文本分类——《Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings》

1 前言

今天分享2019年ACL上的一篇paper——《Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings》，是关于利用专家知识和word embedding来进行无监督文本分类，paper链接。

在工业领域，获取大量标记数据成本往往很大，需要一些无监督或者半监督的方式解决数据标记问题。近年在学术上，无监督方法关注度有所提升，但相对有监督方法，比例还是很小。这篇关于无监督文本分类的方法，对我目前工作起了一定的指引作用，希望也能对读者有些启发。接下来详细介绍。

2 Introduction

论文作者任务背景：在面向金融领域的文本数据分类时，随业务操作细度提高，需要将原始的20个文本类别label扩充到264个类别label，无法获取大量的对应标记数据。因此作者提出：利用专家知识和word embedding的方式进行无监督文本分类。

3 Model

论文的model很简单，简单的就如上图所示。其主要思路为：

1.将文档d清洗后生成代表文档的向量V(d*);

2.将文本类别L通过清洗，扩充，过滤的方式生成对应的类别词库，用词库生成代表类别L的向量V(L*)；

3.最后similarity(V(d*),V(L*))，文本与哪个类别L相似度最高，就属于该类。

方法关键：如何生成高质量的类别词库，这是本论文的核心；

3.1 Model / Cleaning

在model的第一个步骤就是对文档按照一定原则进行清洗，类别标签也是一样的方式，清洗具体有：

1.删掉类似标点符号的特殊字符；

2.去停用词；

3.删掉文档高频词top3%;

4.删掉不常见的单词，即逆文档频率top3%；

5.删掉特殊表达式，如日期，货币等；

3.2 Model / Enrichment

该步骤是针对label进行的，其主要目的就是通过四个具体方法扩充类别词库，具体为：

1.利用专家或者搜索引擎方式，为每个类别提供3-5个代表词；

2.利用WordNet，把上步找的词对应的同义词，近义词加入词库；

3.利用已有的类别词库，找到每个类别代表性的文档(阈值70%)，将文档中的词加入类别词库；

4.利用Word Embedding的方式，找到一些相似词加入词库；

备注：每个步骤找的词都必须是在文档中出现过；

3.3 Model/Consolidation

consolidation是指将enrichment步骤找到的类别词库中，有些代表类别不是特别明显的词过滤掉，剩下高质量的词，过滤的标准是按下列公式来判断：

TF(w,c)是词w在类别c中出现的频率，分子右边是表示词w在所有类别出现的平均频率，分母表示词w在除c类别外分布的方差。当FAC(w,c)低于一定阈值时，就将词w从从类别删除掉，类别中阈值取为16，这个实际中依个人情况而定。

3.4 Model/similarity

模型的最后一个步骤将文档d和类别l进行cosine相似度计算，在向量化上，作者采用了LSA方法，具体为：

1.使用LSA，利用word-document，word-label矩阵，进行奇异值分解，生成各自的潜在语义空间；

2.利用各自生成的向量进行cosine similarity计算；

为何使用LSA：作者认为相似的文档在潜在的语义空间有相似的表示，即使文档之间没有共现的词，也会有相同的语义空间；此外LSA具有降噪，检测同义词的功能。该方法，作者在实验部分没有将其他方法进行与之对比。

4.Experiments

在实验部分，作者使用5个开源数据集，外加一个自己金融领域的数据集，5个开源数据统计为下图：

左表为5个数据集的统计情况，右表为在AGs数据集上形成的类别词库样例

在这5个数据集上，作者使用自己的model，外加一些变体进行了实验对比，详细如下图：

实验结果

实验结果显示：FAC-ALL keywords 方法在后三个数据集取的最佳效果；对比贝叶斯监督学习方法，仅在Yahoo-Answers数据集表现超过。在此个人有一些看法：一，觉得model不同的trick在不同数据集表现有差异性，也就说明某个trick在具体场景才有效；二，监督学习用贝叶斯做对比，充分性不太够；三，在similarity上使用LSA没有进行对比说明。

在金融领域数据集上，作者展示了数据集label的层次性和各个层次label的识别结果，如下图：

左图为数据集的标签层级，右表为在不同级别label上的识别结果

可以看出，随着label层级递增，识别效果差别特别大，在Level3上的类别，F1值才22%，这个结果跟样本不平衡有一定关系。

5 结语

总的来说，本篇paper总体模型框架很简单。作者是将工作中解决思路进行发表，虽然各个操作步骤也是常见的方法，但工业界的确崇尚简单有效至上的原则。论文中形成类别词库这个思路是有一定借鉴意义的，在遇到分类任务时，累积label对应的词库是十分有用的，刚好本篇论文有对应体现的方法。

最后编辑于：2020.07.07 22:10:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,240评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,328评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,182评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,121评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,135评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,093评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,013评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,854评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,295评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,513评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,678评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,398评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,989评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,636评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,801评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,657评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,558评论 2赞 352