word2vec在学历造假中的探索

前言

  1. 如果你想了解word2vec的原理,这篇文章并不适合你,出门右转用google。
  2. 这篇文章的东西含金量不高,希望搞NLP,ML,DL的专业人士轻拍。
  3. 因为含金量不高,所以有一些诸如数据预处理的一些琐碎的东西,因此比较适合新手村的新手任务。

背景

在我们的系统中,有一处是需要校验一个人提供的学历信息是否真实。系统现有的算法准确率比较高,但是召回率比较低。
举一个例子来说明一下学历造假相关背景。以计算机相关专业为例:
计算机科学与技术是一级学科,计算机应用技术,信息安全,计算机系统结构是二级学科。软件工程现在貌似已经是一级学科?
在硕士研究生和博士研究生的授位中,是按照二级学科来区分的。但学计算机的人都懂的,其实都一样。以至于很多人都不知道自己是哪个二级学科的,然后问题就来了,让你填你的毕业专业,你填哪个呢?填错了会不会被认为是学历造假?

问题

显然,这是一个短文本匹配问题,文本短到仅由两三个词构成。而且,由于专业的局限性,非专业人士基本分不清某个一级学科下面有哪些二级学科。

解决办法

  1. 编辑距离,这个算法的缺点明显:计算机科学与技术信息安全的编辑距离,想想都觉得大,字面上看来一点关系都没有。
  2. word2vec: 借助NLP的东西来计算两个专业之间的相似度,挖掘隐藏信息。

基于word2vec的短文本相似度

语料

语料我选择的是中文维基百科,下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
获得语料之后,还需要对语料进行一些预处理:
(此处参考了:http://licstar.net/archives/262

  1. 抽取正文文本
  2. 繁简转换

分词

中文相关的处理,分词是绕不开的一个步骤,我采用了ICT分词的java版。

word2vec

我试图用一些线程的word2vec的jar包来直接训练分词后的语料,但找了好几个,内存都爆了。无奈,我只能在spark mllib上手动做了一个。代码就不贴了,很简单,mllib有现成的word2vec算法库。

得到词向量之后,怎么表达成短文的向量呢?
我采用了一个简单粗暴的办法:向量叠加。直接将短文本分词后的词向量叠加起来,再用余弦相似度来计算相似度。
看一下结果吧:


实验结果对比

其中,相似度A是现在系统跑的算法,相似度B是基于word2vec向量叠加的相似度。
可见,word2vec有效地挖掘出来了专业之间的潜在联系。

结论

  1. 从上面的图中可以看出,在word2vec中,一级学科和二级学科的相似度显著提升。
  2. 软件工程作为一个一级学科,跟计算机科学与技术也有极高的相似度,带来了更大的误导,但其实软件工程作为计算机的相关专业确实相关性极高。

未来工作

  1. 有比向量叠加更好的点子么?应该有吧,卷积应该是一个不错的选择,但是我还没有想好怎么卷积,毕竟我的场景比较特殊,没有标注好的样本进行训练(因为专业是有限可枚举的,如果有功夫标注的话,我想不需要模型来算相似度了,因此我的场景只是需要一个办法来计算相似度)。如果各位有啥好的点子,还请不吝赐教。

参考文献

  1. http://licstar.net/archives/262
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容