一、 NLP 是什么
1.1 定义与核心任务
定义: 它是ai领域重要组成部分,赋予计算机理解、解释、生成人类语言的能力,并基于这些能力对文本数据进行决策。
目标: 我的理解是能够让机器,理解认知表达出来符合具有模糊性、情境性和复杂性的人类交流的。因为计算机通常都是精确、形式化的指令系统。
NLP通常包括自然语言理解和自然语言生成。
1.2 NLP技术层次
- 词法分析: 主要工作为分词和词性标注(标出是什么词性,名词动词等语法决策)
- 句法分析:句子的语法结构。主谓宾啥的
- 语义分析:理解句子和词语的真是含义,解决歧义问题。 主要包括语义消歧和关系抽取。
最近在看做agent,意图识别,其实就会遇到语义消歧的问题,一词多义的情况怎么解决。
- 语用分析: 特定语境下理解语言的意图。难度最大。
二、NLP的发展历程: 从规则到只能
- (1)萌芽期: 图灵测试与早期探索
- (2)规则时代: 符号主义的探索
- (3)统计时代: 数据的力量, 很多基于概率的模型。N-gram模型、隐马尔科夫模型、条件随机场等。
- (4)深度学习时代
* 2010年代,神经网络复兴
* 2013年word2vec将词语表示为稠密的数字向量,使模型能够在向量空间捕捉到一定的分布式语义规律。 例如: 向量 国王-男人+女人 = 向量女王
* 2014年,注意力机制在神经机器翻译中被系统化提出,用于在生成当前词时对输入序列的不同位置分配不同权重,缓解信息压缩带来的性能瓶颈。- 2017年, Transofmer,摆脱了RUNN顺序计算限制,使模型在处理每个token时能同时利用全局上下文信息。
- 2018 年 Bert通过掩码语言模型等预训练任务学习上下文语义表示,推动了预训练-微调范式的普及。
- 2020年GPT-3, 带来了更强的少样本/零样本泛化能力。
- 2022年ChatGPT通过指令微调与人类反馈强化学习(RLHF)等对齐方法,让大模型以更符合人类使用习惯的对话方式对外呈现。
三、NLP主要任务
- 文本分类
- 命名实体识别: 非结构化文本转为结构化
- 关系抽取: 构建知识图谱
- 机器翻译
- 文本摘要
- 问答系统
- 文本生成
- 对话系统
四、NLP主要挑战
(1)语言、知识与推理的挑战
语言的歧义性
(2) 技术、数据与伦理的挑战
参考:datawhale课程
https://datawhalechina.github.io/base-llm/#/chapter1/01_nlp_intro