阅读“阿里智能语音交互文档”

  • ASR :语音识别服务,提供语音转文本服务。
  • TTS :文本转语音服务,提供将文本转为普通话语音的语音合成功能。
  • NLU :自然语言理解服务,提供自然语言处理功能。

语音识别ASR

语音识别服务,可提供语音转文本服务,包括:一句话识别、实时语音识别、录音文件识别。同时,还提供用户自定义热词接口,提高特定领域的识别率。
一句话识别:即实时短语音识别,可提供Java、Android、iOS SDK、C++ SDK。
实时语音识别:即实时长语音识别,可支持长时间语音识别。可提供Java SDK、C++ SDK。
录音文件识别:可提供RESTful接口,支持录音文件的语音识别。
阿里云语音服务为用户提供语音识别的基础服务,Android、iOS SDK封装了录音(Recoder)、静音检测(VAD)、语音服务访问(WSAPI)等功能,可以极大的简化App开发。
阿里云语音识别技术是基于后台服务器的密集CPU计算,语音SDK负责在App端打开录音机,进行语音压缩后,传送到服务器端。服务器进行语音识别转成文字后,通常还需要进行自然语言处理,分析其语法结构,并把语意结果返回给SDK。

一句话识别

一句话识别:即实时短语音识别,可用于语音输入法、智能客服等领域。
提供Java、Android、iOS、C++ 等平台的SDK。
支持语言包括:中文、英文、粤语
支持方言包括:东北、河南、四川等方言
支持结果返回方式包括:“流式”和“非流式”两种模式
支持用户自定义热词功能。

(1) “支持的结果返回方式”包括“流式”和“非流式”两种模式,“流式”模式下用户一边说话一边返回识别结果,“非流式”简单来说就是用户整句话说完后返回识别结果。
(2) “一句话识别”支持的领域包括:社交聊天、家庭娱乐、电商购物、智能客服等。用户可针对具体的使用场景选择对应领域的app_key。

OPUS 编码使用说明
Opus编码器 是一个有损声音编码的格式,由互联网工程任务组(IETF)进来开发,适用于网络上的实时声音传输,标准格式为RFC 6716。Opus 格式是一个开放格式,使用上没有任何专利或限制。
Bitrates from 6 kb/s to 510 kb/s
Sampling rates from 8 kHz (narrowband) to 48 kHz (fullband)
Frame sizes from 2.5 ms to 60 ms
Support for both constant bitrate (CBR) and variable bitrate (VBR)
Audio bandwidth from narrowband to fullband
Support for speech and music
Support for mono and stereo
OPUS 在NLS服务中的使用
目前我们的Android 和 iOS客户端sdk中集成了OPUS编码(encoder)功能。根据我们的参数进行语音编解码,可以做到大概9:1的语音压缩比,能够有效的节省传输带宽和响应时间。
在使用Java SDK时,SDK本身不支持OPUS的编解码,我们提供了使用JNI方式调用Opus的编解码工具,用户可以通过下面的代码自行编译动态链接库。

实时语音识别

功能介绍:
实时语音转写服务适用场景如实时会议记录、视频直播实时字幕等。
本文档提供服务端程序的Java SDK,Java SDK内部不自带语音采集功能,只提供将语音流实时转写成文字的功能。
支持16k 16bit PCM、16k 16bit WAV的语音格式。
sdk本身未设置超时时间,用户可以调用client.close()方法关闭链接。

录音文件识别

录音文件识别:
“录音文件识别”服务是以Restful方式提供长语音文件识别接口。基于该Restful API接口,开发者可以方便获取语音识别能力。
本文档描述了使用“录音文件识别”服务 Restful API 的方法,并提供了完整示例供开发者参考,适用使用 HTTPS 接口的开发人员。

功能介绍:
支持单轨/双轨的wav格式、MP3格式的语音文件识别
目前只支持8k和16k的采样率;
支持普通话识别

Restful架构的描述参考:
http://www.ruanyifeng.com/blog/2011/09/restful
http://www.ruanyifeng.com/blog/2014/05/restful_api.html

NLU

自然语言理解(Natural Language Understanding,NLU)以语言学为基础,融合逻辑学、心理学和计算机科学等学科,试图解决以下问题:语言究竟是怎样组织起来传输信息的?人又是怎样从一连串的语言符号中获取信息的?换种表达就是,通过语法、语义、语用的分析,获取自然语言的语义表示。在自然人机交互大发展的背景下,自然语言理解平台应运而生,本文将对自然语言理解平台中的各个领域的语义表示协议进行详细介绍。

语义表示协议

协议描述语言

协议采用结构化的描述语言JSON进行表示,采用utf8编码。JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式。 易于人阅读和编写,也易于机器解析和生成,具体请参考: Json介绍。
此处只简述JSON的几个核心概念:

值(value)
值(value)可以是双引号括起来的字符串(string)、数值(number)、true、false、 null、对象(object)或者数组(array)。这些结构可以嵌套。

数组(array)
数组是值(value)的有序集合。一个数组以“[”(左中括号)开始,“]”(右中括号)结束。值之间使用“,”(逗号)分隔。比如,[value1,value2,……]。

对象(object)
对象是一个无序的“‘键/值’对”集合。一个对象以“{”(左括号)开始,“}”(右括号)结束。每个“键”后跟一个“:”(冒号);“‘键/值’ 对”之间使用“,”(逗号)分隔。比如,{key1:value1, key2:value2, ……}。

关于JSON

http://www.json.org/json-zh.html?spm=5176.doc30439.2.1.S6f0AQ

结构上看,所有的数据(data)最终都可以分解成三种类型:

第一种类型是标量(scalar),也就是一个单独的字符串(string)或数字(numbers),比如"北京"这个单独的词。
第二种类型是序列(sequence),也就是若干个相关的数据按照一定顺序并列在一起,又叫做数组(array)或列表(List),比如"北京,上海"。
第三种类型是映射(mapping),也就是一个名/值对(Name/value),即数据有一个名称,还有一个与之相对应的值,这又称作散列(hash)或字典(dictionary),比如"首都:北京"。

21世纪初,Douglas Crockford寻找一种简便的数据交换格式,能够在服务器之间交换数据。当时通用的数据交换语言是XML,但是Douglas Crockford觉得XML的生成和解析都太麻烦,所以他提出了一种简化格式,也就是Json。
Json的规格非常简单,只用一个页面几百个字就能说清楚,而且Douglas Crockford声称这个规格永远不必升级,因为该规定的都规定了。

1) 并列的数据之间用逗号(", ")分隔。
2) 映射用冒号(": ")表示。
3) 并列数据的集合(数组)用方括号("[]")表示。
4) 映射的集合(对象)用大括号("{}")表示。

关键术语定义

领域(domain)
领域是指同一类型的数据或者资源,以及围绕这些数据或资源提供的服务,比如“视频”,“餐厅”,“酒店”,“飞机票”、“火车票”、“电话黄页”等。
意图(intent)
意图是指对于领域数据的操作,一般以动宾短语来命名,比如视频领域中,有“查询”、“播放”等意图。
属性(slot)
属性用来存放领域的属性,比如视频领域有“视频名”“导演”“演员”等。 对于视频领域,我们的语义表示结构如下图所示:

image.png

TTS

语音合成服务(TTS),就是将文本转成语音的服务。阿里云语音服务为用户提供语音合成的基础服务,服务器将需要进行合成的文本传送到服务器端,服务器进行语音合成后,以语音数据流的形式返回给SDK,用户可直接进行语音数据的播放或存储。
同时,阿里云语音合成服务提供给用户丰富的接口,可以设置不同的发音人、语速、音量等,获取的语音形式也很丰富,包括PCM、WAV等格式,可以极大的简化语音类App的开发。

知识库

知识库简介

智能问答系统基于一个问答知识库来回答用户提问,该知识库中每一条知识点是以“问题-答案”形式组织的。每条知识点包含如下的关键内容:
ID:每条知识点的唯一标识符。
Question:知识点的问题部分。这个内容是匹配算法处理的内容。用户的输入会和这个字段内容进行语义匹配。
Answer:知识点的答案部分。这个内容问答系统不会做处理,会在问题匹配之后原样返回给用户。
其中的Question部分是语义匹配的关键部分,书写良好的Question对于匹配的精确度有很大好处。一个较好的Question应该遵循这样一些规则:
首先表述尽可能完整,能够描述一个特定的问题。比如说“吃了不干净的东西导致拉肚子,用什么药比较好”,要好于“拉肚子怎么办”。
尽可能用通用的表述,避免特例,比如说“支付宝转账到银行卡,24小时了还未到账怎么办”,要好于“昨天上午用支付宝转账到账户为xxx的银行卡,现在还没到”
采用比较正规简洁的句式,避免不相关的问候、语气等内容。
用词尽可能用常见的词汇,避免孤僻词或者网络用语。
知识库格式

管控台导入的知识库文件格式要求如下:
文件格式:xls或xlsx格式
内容格式:
【第一个sheet】
第1列:问题
第2列到第n列:问题对应的不同问法,可以为空
【第二个sheet】
第1列:问题(保持与sheet1第一列一致)
第2列:问题的答案
知识库上传
系统提供两种数据上传方式,一是通过用户界面自动上传,支持全量上传和增量上传,全量上传即所有的知识点都同一次上传,并且以前所有的知识点都将从系统中删除;增量式的上传,即只传输那些新增、修改或者删除的知识点。二是通过后台服务人员手动上传。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容

  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,016评论 4 62
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,591评论 18 139
  • 刚刚吃完一份香锅,逛了逛校园,累了就听着民谣坐在长廊上晒太阳,打着这段文字。 说实话,刚到南京的时候心里躁躁的……...
    萧不二阅读 352评论 0 1
  • 满桌佳肴不敢沾,皆因生态已变迁。寻找百度原生态,唯有杰出 A P P。放心可餐皆食客,天下无毒桌上菜。为农为民为苍...
    甘朝武阅读 148评论 0 0
  • 注意:iOS所有图标不能是圆角的。 Spotlight iPhone App (重点) Settings 图标尺寸...
    七维树阅读 415评论 0 0