《基于 Web的问答系统综述》
李舟军 李水华
(北京航空航天大学计算机学院 北京100191)
2017年的论文
一、基于Web的问答系统
经典的WQA系统主要由以下3个模块构成。
- 问题分析模块
问题分类、关键词提取和扩展、问题重写- 信息检索模块
获取并解析搜索引擎返回的搜索结果,从而得到结构化的网页片段列表。- 答案抽取模块
候选答案抽取:
手工编辑或自动生成名词词典,将词典中所有名词都作为候选答案、命名实体识别、根据手工编辑或自动生成的文本模式抽取候选答案。
候选答案排序:
向量空间模型计算答案与问题的相似度、根据语法结构判断候选答案与问题的匹配度、根据词汇特征,相似度特征,统计特征等多种特征进行综合排序。
目前大部分WQA系统可以较好地处理和回答事实型问题,但是不能较好地回答定义型、原因型、关系型、比较型、方法型等问题。
二、WQA的发展趋势
- 与其他问答系统的融合
- 通过问题摘要生成答案
- 自动生成高质量问答对数据
- 提升WQA系统处理复杂问题的能力
- 跨语言能力,跨领域能力的进一步增强
- 与语音识别,语音生成等工具的进一步结合