深度学习 - 岗位理解新方式

小析智能的人岗匹配一个非常重要的流程是将用户想要推荐的岗位名称进行标准化,然后对海量简历完成初步筛选。小析内部有一个完整标准化岗位的知识图谱,如何将用户输入的五花八门的岗位标准化分类到对应的标准化岗位是一个非常重要的问题,直接影响到人岗匹配的初筛结果。

Java程序员,java工程师,java软件开发,表达出来的都是java的标准化岗位。在这种情况下,如果招聘人员搜索的是java软件开发,其希望匹配的对象应该包括了以上三类,而不是仅仅进行java软件开发的简历的匹配。此文中,我们将介绍一下小析智能在岗位标准化的研究进展。

深度研究

在小析智能,我们不断努力着更新完善我们的人工智能技术。因此,我们的研发人员每个星期五有固定半天的自发兴趣研究时间来阅读最新的机器学习论文和研究成果,并评估在我们的产品中带来改善的可能性。特别是针对用户提出的建议和问题,我们会尝试脱离现有的系统,尝试使用更合适的技术来解决客户的问题。

某天,小析智能研究员小张阅读到了一篇2019ACL会议的一篇论文,里面提到了使用孪生时间循环神经网络来计算两个文本实体的相似度。并认为该方法说不定适用与我们的搜索岗位标注化的问题。能对我们目前使用浅学习加集成模型(boosting)带来改善。于是我们便启动了我们的效果对比流程。所谓效果流程,就是将新旧版本算法在一个较大的数据集中运行,然后让专家对两个版本的效果进行评估标注,如果新版本统计性显著比旧的版本后,在考虑后各种场外因素(如运行时间,代码维护成本等)后会将算法进行迭代。最后统计得出,在890个标准化岗位里,我们的岗位标准化测试集准确率从96.2%提高到了98.4%, 特别是对于一些小析较罕见的行业类别(光电子行业,服务行业)准确率有了显著提高,保持了我们人岗匹配系统在行业的领先优势。

岗位标准化

很多岗位名称有多种不同的表达方式,例如上面提到的java软件开发的例子。同理,算法岗可能也叫机器学习工程师,数据科学家。这个例子比较极端,岗位名称中基本没有出现相同的字,但基本意味着同样的意思。这样使得传统的词袋模型没法对其相似度进行计算,因为相似度都是0。同样,岗位的叫法也取决于公司的文化,行业,甚至招聘经理的书写习惯。

比较常见的特征提取是对中文词语进行分割,然后以序列方式表示。例如高级机器学习工程师可以表达为‘高级’,’机器学习’,’工程师’。而资深数据科学专家可以表达为‘资深’,’数据科学’,’专家’。根据传统计算机的理解方式,其会计算两个序列出现词的相似度和顺序,在这种情况下,我们一般的机器学习算法会判定其相似度非常低。还有一个情况,如果招聘经历打错了字变成机器学习供程师,则会严重影响匹配的准确度。这样明显会大大影响用户体验,我们需要更聪明的匹配方法。

再看一个例子,有客户直接使用招聘网站发布的岗位名称进行招聘,如大数据工程师(四大银行,薪资优厚),如果算法无法正确提取真正表明岗位的部分进行核心分析,会闹出预测成金融岗位的笑话。在此插播一个小析对此情况的匹配结果,我们的人岗匹配系统在职能标准化时专注于对大数据工程师这个岗位关键词进行分析,不会被其他词语影响。



综上,一个优秀的匹配方法需要有如下特点,

-  应该能够理解同义词

-  能够忽略和岗位无关的词语

-  能够处理拼写错误和不同表达方式

岗位名称深度表示

为了更好地对输入的岗位名称有更深度的理解,和小析简历解析一样,我们引入了深度学习技术。深度学习的优势是不需要用手动对输入进行特征提取,如分词,停顿词处理等。并且针对每个字或者每个序列有一个高维度的向量表达。这样可以更好地比较两串输入的相似度。

对于岗位标准化的问题,我们的目标是相同的岗位有相似的向量表达,而不同的岗位有相距甚远的向量表达。在此,我们收集了上千万的岗位对数据,并有对应两个岗位关系的标签,如果两者相同,标签为1,否则为0。然后使用了双向LSTM(长短记忆模型)作为embedding层,并加入了attention机制使权重集中在重要的地方对数据进行向量化处理。最后将两个输入的隐藏层输出作为孪生神经网络的输入,得到最终相似度的能量函数。

下图是简化的网络机构描述:


引入深度学习让小析智能的岗位标准化有了显著的提高。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容

  • 在人力资源行业,HR每天都要面对大量的非结构化数据,如各式各样的简历,用人单位的招聘需求,面试的反馈报告等,如何高...
    大数据小学生阅读 1,778评论 0 112
  • 关键词:类模板 0.问题:在C++中是否能够将泛型的思想应用与类? 类模板 1. 类模板 一些类主要用于存储和组织...
    编程半岛阅读 477评论 0 0
  • 这段时间一直睡眠不是很好,昨天的一个动念,才知道自己的偏差,的确是每个人都在做自己的事。别人如何做是别人的事,我去...
    烟雨依月阅读 111评论 0 3