http://www.docin.com/p-2177206264.html
1、智能问题算法原理
任务机器人
知识图谱机器人
FAQ机器人
闲聊机器人
阅读理解机器人
1.1 FAQ 机器人
query -> 纠错->标准化->文本特征提取->query改写[同义词] ->BM25 算法 -> 计算语句和候选句的相似度s(q,q') , 并排序
【相似度计算:冷启动-深度学习匹配-知识图谱-拒识】
https://blog.csdn.net/qq_42491242/article/details/105286787
https://zhuanlan.zhihu.com/p/84809907
拒识 =即能够知道自己不能回答用户的哪些问 题以及何时应该转向人工客服.
知识图谱相似度=基于特定知识的语义相似度量,它依赖于分类中的结构化知识:
例如: 深度、路径长度 ) 和统计信息内容( 语料库与语义图谱) 。
冷启动解决方案
字面匹配 文本相似度(jaccard, cosine)+ xgboost
xgboost 非线性建模,他将K(树的个数)个树的结果进行求和,作为最终的预测值
词向量 word2vec,glove =Global Vectors for Word Representation
句向量 WMD[无监督] ,SIF
SIF
1、以smooth inverse frequency(简称SIF)为权重,对所有词的word vector加权平均
例如权重=a/(a + p(w)),最后从中减掉重要关键词,得到sentence embedding。
2、对一些不重要的词语的权重下降,例如but、just等
结论 虽然句子中无加权的平均词嵌入是简单的基准做法,但是Smooth Inverse Frequency是更强有力的选择
https://zhuanlan.zhihu.com/p/37104535
排序训练模型
排序阶段也可以利用排序训练模型,得到知识库内的相似问,构造句对训练数据,训练有监督的模型
判断(query, question)的分数,选择分数最高的问题对应的知识点作为机器人回复
深度匹配模型DSSM
通过搜索引擎里 Query 和 Title 的海量的点击曝光日志,用 DNN 把 Query 和 Title 表达为低纬语义向量,并通过 cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。
https://www.jianshu.com/p/8f19d915b3f8
迁移学习
联合学习
-文本分类:同时进行语句匹配和分类
-文本生成:匹配和seq2seq训练
多语料迁移:
-fine-tune
-adversarial loss
预训练模型
-ELMO , BERT
多轮对话架构
对话管理
query->nlu-DST-DPL -NLG ->response
NLU : 意图识别(规则或分类)槽位提取(NER)
DST-会话状态管理(DQN)
DPL- 会话策略学习,选择下一步
NLG- 根据action 返回回复文本
预判 客服机器人多轮对话的意图预判功能通常依赖于访客的接入渠道、着陆页、访问轨迹等数据,机器人可以通过这些数据来预测客户想要咨询的问题
https://blog.csdn.net/stay_foolish12/article/details/90265394
任务型机器人
https://www.cnblogs.com/qcloud1001/p/9181900.html
任务型机器人指特定条件下提供信息或服务的机器人。通常情况下是为了满足带有明确目的的用户,例如查流量,查话费,订餐,订票,咨询等任务型场景
理解了用户意图之后,通过引导用户完善任务要求,完成任务。
知识图谱机器人
处理流程:场景选择,实体抽取,关系预测
问答式
引导式
根据知识逐步递进,一步步进行约束定义
阅读理解机器人
从文章中抽取答案,阅读理解建模。
闲聊机器人
seq2seq, 上下文建模
电话机器人
ASR, NLP, TTS,MRCP
智能电话管理
人群管理,话术管理,电话任务管理,知识库管理,算法模型管理
外呼统计
任务监控,通话监控,意向度筛选,通话详情,统计分析
智能应答
智能问答系统体系结构
功能组件:语义解析,语义匹配,会话意图识别,答案生成,情感分析
深度迁移学习,知识图谱引擎
问答标注平台,模型训练平台,分布式爬虫,hadoop 集群
知识库管理界面
问答管理,相似问题,智能学习
访客界面
回答,引导转人工
客服界面
挑战
1- 单轮: 深度语义匹配 迁移学习 知识图谱
2- 多轮 对话管理-槽位提取-端到端学习-强化学习
3- 阅读理解机器人-开放域闲聊机器人