自然语言处理产品应用
在人工智能领域,会将所有人类使用的语言视为“自然”语言。自然语言处理Natural
Language Processing,NLP 技术可以让机器更加懂得人类的自然语言,理解人类通过语言所表达的含义。
一、认识NLP
1、常见自然语言处理的两种方法
1)基于规则来理解自然语言,即通过制定一系列的规则来设计一个程序,然后通过这个程序来解决自然语言交流的问题
2)基于统计机器学习来理解自然语言,即用大量的数据通过机器学习算法来训练一个模型,然后通过这个模型来解决自然语言处理面临的问题
2、自然语言处理系统离不开语料库和知识库的支持
语料库:存放语言素材;知识库:分两类,一类是词典、规则库、语义概念库等,分别于解析过程中的语法分析、句法分析和语义分析对应;另一类语言知识存在于语料库之中,每个语言单位的出现,其范畴、意义、用法都是确定的。
二、自然语言处理的流程
第一步语料获取
第二步语料预处理:语料清洗、分词、词性标注、去停用词
第三步特征构建
第四步特征选择
第五步模型训练:词汇分析、句法分析、语义分析、语用分析
三、语言处理产品案例
1、常见任务
问答
机器翻译
摘要
语言推理
情感分析
语义角色标注
关系抽取
任务驱动多轮对话
指代消解
语义分析
命名实体提取
2、产品应用形态
人机对话类产品
机器翻译
阅读理解
机器创作
3、语言处理产品评价标准
任务达成率
对话交互效率
平均单词对话轮数
相关性和新颖性
留存率
重复问同样问题的比例
无答案比例
语料自然度和人性化程度
情绪检测
常规指标
4、语言处理的挑战:语言的歧义、语言的鲁棒、知识依赖、上下文、情绪识别