1 语音 图像 文本
语音识别 光学字符识别 转化为文本
2 中文分词、词性标注、命名实体识别
围绕词语进行的分析——统称【词法分析】
- 中文分词:将文本分割为有意义的词语
- 词性标注:确定每个词语的类别和浅层的歧义消除
- 命名实体识别:识别出一些较长的专有名词
2.1信息抽取
词法分析之后,文本已经呈现出部分结构化的趋势(计算机看到的是有意义的单词列表,并且每个单词还附有自己的词性以及其他标签)
根据单词与标签,抽取出一部分有用的信息
2.2文本分类与文本聚类
2.3句法分析
2.3.1语义分析与篇章分析
语义分析侧重语义而非语法,包括词义消歧、语义角色标注、语义依存分析
其他高级任务
自动问答、自动摘要、机器翻译