调研 | NLP云服务简报

NLP 步骤拆解


原文:
Overview of Artificial Intelligence and Role of Natural Language Processing in Big Data
by Jagreet Kaur

Comment:原文说明得有些零散,我按照自己的理解重新整理了一遍。

Step1. 语法分析Syntax Analysis

1.1 句子切分Sentence Segmentation
1.2 词语标记Tokenization
1.3 变体词元化Stemming / Lemmatization
1.4 词性标注Part-of-Speech Tagging
1.5 语法解析Parsing
1.6 指定实体识别Named Entity Recognition

Step 2. 语义分析Semantic Analysis / Natural Language Understanding

2.1 词义理解
2.2 歧义化解Ambiguity Resolving
  2.1.1 词汇歧义Lexical Ambiguity
  2.1.2 语法歧义Syntactic Ambiguity
  2.1.3 语义歧义Semantic Ambiguity
  2.1.4 回指歧义Anaphoric Ambiguity

Step 3. 意图理解Pragmatics Analysis

Step 4.自然语言生成Natural Language Generation

3.1 文字材料规划Text Planning
3.2 句子规划Sentence Planning
3.3 整合Realization




大型NLP服务提供商产品定义简析


1. Google Cloud Platform

1.1 Natural Language API

Notes: 需配合Speech API 来对音频进行支持。

  • Syntax Analysis
    定义:Extract tokens and sentences, identify parts of speech (POS) and create dependency parse trees for each sentence.
    即语法分析,大致包含上文所述步骤的1.1~1.5。
  • Entity Analysis
    定义: Inspects the given text for known entities (Proper nouns such as public figures, landmarks, and so on. Common nouns such as restaurant, stadium, and so on.) and returns information about those entities.
    即实体识别。
  • Sentiment Analysis
    定义:Understand the overall sentiment expressed in a block of text. Identify the prevailing emotional opinion within the text, especially to determine a writer's attitude as positive, negative, or neutral.
    即情感分析。
  • Entity Sentiment Analysis
    定义:Understand the sentiment for each mention of an entity within a block of text.
    即针对实体的情感分析。

参考链接:
https://cloud.google.com/natural-language/docs/

1.2 Cloud Translation API

  • Text Translation
  • Language Detection

Comment: 机器翻译其实是NLP的一种实际应用。本文为了表现各厂商的布局情况,也简单列一下。

参考链接:
https://cloud.google.com/translate/


2. Microsoft Azure

2.1 Language Understanding Intelligent Service

定义:Enable developers to build smart applications that can understand human language and react accordingly to user request. Extract intents and entities that correspond to activities in client application's logic.
即意图+实体分析。

参考链接:
https://azure.microsoft.com/en-us/services/cognitive-services/language-understanding-intelligent-service/

2.2 Text Analytics API

  • Sentiment Analysis
    定义:Extract features from POS tags, and embedded words of the text, then using classification techniques to get a score which reflects the attitude of people.
    即情感分析。
  • Key Phrase Extraction
    定义:Extract key phrases to quickly identify the main points.

Notes: 该技术来自于Microsoft Office的NLP toolkit。

  • Language Detection
    定义:The API returns the detected language and a numeric score to indicate the certainty. 120 languages are supported.

参考链接;
https://azure.microsoft.com/en-us/services/cognitive-services/text-analytics/

2.3 Linguistic Analysis API

  • Sentence separation and tokenization
    定义:Break the text into sentences and tokens.
    即句子切分和词语标记。
  • Part-of-Speech Tagging
    即词性标注。
  • Constitency Parsing
    定义:Identify the phrases in the text. A phrase is a sequence of words. It can be moved together or replaced as a whole, and the sentence should remain fluent and grammatical.
    即语法分析。

参考链接:
https://azure.microsoft.com/en-us/services/cognitive-services/text-analytics/

2.4 Bing Spell Check API

定义:Help users correct spelling errors, recognize the difference among names, brand names, and slang, as well as understand homophones as they're typing.

Notes: 与Microsoft Word的常规拼写检查程序不同,Bing采用的是第三代系统。它的更新与壮大,不依赖词典及背后的维护人员,而是利用机器学习和基于统计的机器翻译、基于大量的网络搜索和文档来训练算法。

该API分为Proof和Spell两种模式。前者对于语法错误有着更高的捕捉率,但仅支持美式英文。

参考链接:
https://azure.microsoft.com/en-us/services/cognitive-services/spell-check/

2.5 Microsoft Translator API

Notes: 目前,该API还是基于统计的机器翻译(SMT)。这项技术在性能提升方面已进入稳定阶段,翻译质量较难有所突破。基于深度神经网络(DNN)的翻译技术蓄势待发,但截止至8月27日,该技术仅对Microsoft Translator Speech API的用户开放。目前,Skypy Translator 采用DNN翻译引擎,Bing Translator采用SMT翻译引擎。

  • Text Translation API
  • Speech Translation API
    定义:Transcribe conversational speech from one language into text of another language. The API also integrates text-to-speech capabilities to speak the translated text back.

Notes: 翻译的过程包括通过ASR从源语言音频识别出对应文本。微软在ASR的基础上,采用TrueText的新技术,来优化识别文本。TrueText支持过滤口水词、咳嗽、不敬词,也能进行标点及大小写的修正。

  • Collaborative Translation Framework Reporting API
    定义:Allowing users to recommend alternative translations to those privided by Translator's automatic translation engine.
  • *Microsoft Translator Hub
    定义:Let developers customize a language pair for a specific domain (area of terminology and style) or to build automatic translation for a language that is not yet covered by Microsoft Translation API.
    It is an extension of the Microsoft Translator API and service.

参考链接:
https://azure.microsoft.com/en-us/services/cognitive-services/translator-text-api/

2.6 Web Language Model API

定义:Automate a variety of standard natural language processing tasks.

  • Word Breaking
  • Joint Probabilities
    定义:Calculate how often a particular sequence of words appear together.
  • Conditional Probabilities
    定义:Given a sequence of words, calculate how often a particular word tends to follow.
  • Next word completions
    定义:Given a sequnce of words, get the list of words most likely to follow.

参考链接:
https://azure.microsoft.com/en-us/services/cognitive-services/web-language-model/

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,539评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,911评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,337评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,723评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,795评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,762评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,742评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,508评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,954评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,247评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,404评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,104评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,736评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,352评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,557评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,371评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,292评论 2 352

推荐阅读更多精彩内容