登录注册写文章

智能交互助手 - 名词篇

智能交互助手 - 名词篇

标记一下各类名词，但是不做过多的解释了，看到不懂的朋友们自行搜索吧

标准对话机器人架构

基本的对话机器人框架

ASR
Auto Speech Recognition
自动语音识别
现在已经很普遍了，各种云平台上的开放API也很多了，一般个人和企业感觉没必要从这块开始自己做
可选的讯飞、百度、阿里、腾讯

TTS
Text To Speech
语音合成
同样很多家都在做了。
可选的讯飞、百度、阿里、腾讯
额外的是Google的Tacotron系列论文，效果说是很好，最新的是Tacotron-2，github上也有各类的实现代码，以及语音数据
另外中文部分可以用来训练的也有一些，后续再详细分享。

NLU
Natural Language Understanding
基本上NLP里核心的核心就是的先understanding，分词、词性识别、句法分析，常见的jieba分词，哈工大的ltp等等
然后是意图识别，命名实体识别

DM
Dialogue Management
对话管理
简单来说，看过有的公司对这块能力的等级评定，基本上最早的就是FAQ类的一问一答型的对话。随着能力的提升，任务型对话、多轮对话，都是通过对话管理来实现的。多轮对话中，实现意图切换、上下文继承等等。

NLG
Natural Language Generation
自然语言生成
处理之后，当然要生成一句话返回给用户，如果每次都是同样的模板，就显得有些古板和不智能了吧。

Tokenize
分词
在之前的处理过程中，分词都是必经的第一步，无论是意图识别、还是关键字段信息的识别都绕不开分词。但是随着BERT以及百度ERNIE的提升，貌似这些都不是必须的了。
同时，在折腾rasa框架过程中，试用过各种分词后进行意图识别、命名实体识别的，后来发现对于中文里面，很多词必须带着上下文，带着意图啥的才能分词分好。所以后期基于BERT的方案，可以不用分词了。

NER
Naming Entity Recognition
命名实体识别
这个是处理的重点之一，毕竟我们大脑处理一句话的时候，也是要提取关键字段信息的，从小就开始训练我们的，时间、地点、人物等等要素是必须的。然后根据各自领域、行业、业务等自己增加需要训练和识别的字段，这也是fine tune的价值所在。

Intent Recognition
意图识别
要让机器明白我们想要让它干嘛，对于机器来说，可以理解为一个分类过程。

BERT
满大街都是介绍和解释的文章，我就不班门弄斧了。后续的XLNet、ERNIE2.0等等都是在这个思路上往前走。做为折腾的必经之路，这个是必须搞得。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文