Getting NLP ready for Business

原文链接:链接,要翻墙

在NLP被Deep learning占领之前,它都在一些传统任务上有缓慢但是平稳的发展。例如POS tagging词性标注,syntactic parsing句法分析,entity linking实体链接,semantic parsing语义解析。

深度学习对于这些任务并不一定有更好的性能,但是确实更简单了。例如在过去,为了训练一个parser,需要构造百万级的特征,但是现在只需要word embedding,把剩下的交给神经网络即可。

为什么deep learning已经在图像和语音方面取得了很好的结果,但是NLP上却这么困难。主要在自然语言理解有两个很基础的东西:priors and structures

我们的大脑是怎么从少量信息获得有用信息的,我们的大脑从稀疏的、嘈杂和模棱两可的输入数据中构建有用的模型并且生成有用信息。大脑是如何做到的,答案就是Bayesian inference贝叶斯推断,这种推断依赖于innate priors先天先验,大脑的不断进化发展。

先验是重要的,但是更重要的是自然语言的recursive structure,例如“Jordan 7 day weather forecast”符合“weather forecasting” semantic frame,包括了一个位置参数和时间长度,如果算法可以捕获这种结构,就可以减少歧义。目前state-of-the-art的web search和QA/conversation application,手动构造的模板用于捕获输入中的结构信息,可以在inferencing中减少错误。

The power of aggregation

在一些应用中,并不依赖于NLP去理解单个语句的意义,而是处理大量数据集,然后将他们的结果aggregate去支持应用。

1. Sentiment Analysis,特别是aspect-oriented,深入dl技术之后,我们理解了,有一些时候我们不能捕获情感是因为我们不理解自然语言的特定表达。

2. Summarization,有两类:extractive和abstractive。extractive是将文章中的一些句子挑选出来,abstractive是生成新句子。第一种方法单纯使用统计方法,第二种方法不能产生很好的结果。

3. Knowledge bases,依赖于information extraction(IE)的聚合结果,电商和医疗这两个工业领域,用户可以通过关键字搜索,但是不支持query句子,例如how to fight insomnia

4. Search,semantic matching,因为有一些用户特有的表达方式。

5. Education,帮助用户更好的学习某个语言,例如DeepGrammar

目前QA和chatbots效果比较好,并不是理解自然语言,而是使用了大量的handcrafted templates


 In fact, if we treat i) database schema, ii) database statistics, and iii) equivalent ways of mentioning database attributes and values in natural languages, as metadata that can be injected into QA and the conversational AI, then it is possible to create one system for different customer service needs.

如果缺少训练数据是NLP领域的瓶颈,为什么不尝试增加明确的领域知识到机器学习算法中?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容