闲聊自然语言处理NLP

原文链接
无论在工程界还是学术界自然语言处理(NLP)一直是一个比较热的话题,尤其随着近些年深度学习的发展给NLP也带来一些新思路。对于这个话题随便聊聊,想到哪写到哪。

其实自然语言理解很难

为什么说让机器真正的理解自然语言很难呢?
人类语言从出现至今经过上万年的演变,规则极其错综复杂,就连人类自己在学习一门外语的时候还经常发语法错误更不用说机器了。例如,一个句子由多个词语组成,通过各种组合能够得到更为复杂的句子并且如何理解一句话需要根据语境来判断,相同的词在不同的上下文中往往会产生不同的语义。同时,随着社会的发展不停的会有新词出现,退回5年前谁也不知道老铁还会双击666,哈哈。

NLP做哪些事情

NLP的范围很广,包括但不限于:文本匹配、分类、实体预测等。具体应用有:分词、文本分类、语义分析、机器翻译、多轮对话,问答系统等等。

特征工程

特征工程在ML中十分耗时但又十分重要,同时又不具备通用性,同样是分类问题,在文本分类上好使的特征在商品分类上就完全不靠谱。而在NLP领域的特征工程主要包括:文本预处理、文本特征提取、文本表示。

文本预处理

中文文本的预处理主要包括切词和去掉停用词。由于中文不像英文字母之间有空格分开,所以对于中文的切词需要用复杂的算法来解决,例如:最大匹配、基于统计信息的CRF及深度学习的一些方法。去停用词则是去掉文本中高频的连词介词等,这些词对于文本分析没有太多的价值,通常做法是维护一个停用词列表。

文本表示

计算机不能直接处理文字,但计算机可以处理数字。文本表示主要是将文本转换成计算机可以处理的方式。例如常用的词袋或者向量空间模型等,但最大的缺点是缺失上下文信息,词与词之间相互独立无法表征语义同时向量的维度和稀疏性都比较高。

特征提取

文本的表示依赖于特征的提取,主要包括特征选择和权重计算。特征选择一般是根据某个评价指标对文本进行评分排序选择评分较高的特征项,例如:词频、文档频率、互信息等。最经典的就是TF-IDF。

深度学习在NLP中的应用

深度学习在图像分类、语音识别的应用中取得了很大的成功。相比于传统的文本,表示图像和语音的数据是比较稠密的,而对于高度稀疏的one-hot文本向量深度学习不善于处理此类数据。所以要用深度学习解决NLP问题首先要解决的是文本表示问题。Distributed Representation,其基本思想是将每个词表达成 n 维稠密、连续的实数向量,他具有很强的特征表示能力。具有代表性的是word2vec,他有两种模式:CBOW和Skip-Gram。word2vec极大的推动了文本分析的发展,其提出的Hierarchical Softmax和Negative Sample两个方法很好的解决了耗时漫长的大规模计算问题。但word2vec通过语料中的上下文信息学习得到的词向量还不能表示真正的语义,例如通过word2vec得到的相似的词更多的是具有相似上下文的词,“好”与“坏”的相似度经常也很高。

解决了文本表示的问题,则可以通过CNN/RNN来进一步解决自动特征提取进而完成文本分类等问题。

关于文本分类及实体识别

文本分类和实体识别是NLP里一个老生常谈的话题,最早开始人们通过规则匹配的方式来做,到后来随着数据量的增长和机器性能的提升,运用统计学知识的机器学习方法开始渐渐成为处理此类问题的一个主要手段。但依旧避不开特征工程这个步骤。

例如在句子分类中,首先要把句子表示成TF-vector或者是WordCountVector进而利用LR或者SVM等分类器进行分类。而在NER中则更为复杂:当前词的前序词、后续词、是否大写、是否是Title、词的前缀和后缀,词性等等,这些都是大家在不断的摸索中发现的比较好的特征。

利用深度学习网络自动提取特征的技能可以帮助人们更好的完成之前的文本处理任务。例如:利用word2vec将词转成词向量,然后利用CNN进行卷积计算,在卷积的过程中不同size的卷积核可以自动获取n取值不同的n-gram信息,通过不同的卷积层捕捉局部相关性可以更好的来进行分类。详见:Yoon Kim发表的论文

问答系统和多轮对话系统

问答系统早期的做法是通过模板、规则匹配的方法,这种方法比较适合命令式的场景,例如家电控制、Siri等。

目前还有一种常用做法是基于检索的方法:将Q&A索引起来,新来的question在索引上做一次检索,在候选集上用匹配模型去匹配,最后做一个排序,一般把第一个答案返回给用户。例如微软小冰。多说一句,因为答案是 真正的人回复的,所以给提问者一个错觉,这个机器人很接近智能。

还有一种方法是通过神经网络来对问题和答案做卷积,判断两句话里哪些局部的词语是互相对应的,最终判断问题和答案是否相关。

多轮对话可以看做是广义上的一个问答系统,目前开放式的多轮对话还是基于检索的方式来做,但还做的不够好。尤其对于一个闲聊的、开放式的对话目前还没有一个很好的模型来描述和刻画。

最后

目前看来在广义的NLP中,从语音到文字(语音识别)做的比较成功,从文字到语义及从语义到回答还有很长的路要走。理解语义是非常难以跨越的鸿沟,不亚于人类登上月球的壮举。人工智能的发展未来可期。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容