Base-llm 之 1.1 NLP简介

一、 NLP 是什么

1.1 定义与核心任务

定义: 它是ai领域重要组成部分,赋予计算机理解、解释、生成人类语言的能力,并基于这些能力对文本数据进行决策。
目标: 我的理解是能够让机器,理解认知表达出来符合具有模糊性、情境性和复杂性的人类交流的。因为计算机通常都是精确、形式化的指令系统。

NLP通常包括自然语言理解和自然语言生成。

1.2 NLP技术层次

  • 词法分析: 主要工作为分词和词性标注(标出是什么词性,名词动词等语法决策)
  • 句法分析:句子的语法结构。主谓宾啥的
  • 语义分析:理解句子和词语的真是含义,解决歧义问题。 主要包括语义消歧和关系抽取

最近在看做agent,意图识别,其实就会遇到语义消歧的问题,一词多义的情况怎么解决。

  • 语用分析: 特定语境下理解语言的意图。难度最大。

二、NLP的发展历程: 从规则到只能

  • (1)萌芽期: 图灵测试与早期探索
  • (2)规则时代: 符号主义的探索
  • (3)统计时代: 数据的力量, 很多基于概率的模型。N-gram模型、隐马尔科夫模型、条件随机场等。
  • (4)深度学习时代
    * 2010年代,神经网络复兴
    * 2013年word2vec将词语表示为稠密的数字向量,使模型能够在向量空间捕捉到一定的分布式语义规律。 例如: 向量 国王-男人+女人 = 向量女王
    * 2014年,注意力机制在神经机器翻译中被系统化提出,用于在生成当前词时对输入序列的不同位置分配不同权重,缓解信息压缩带来的性能瓶颈。
    • 2017年, Transofmer,摆脱了RUNN顺序计算限制,使模型在处理每个token时能同时利用全局上下文信息。
    • 2018 年 Bert通过掩码语言模型等预训练任务学习上下文语义表示,推动了预训练-微调范式的普及。
    • 2020年GPT-3, 带来了更强的少样本/零样本泛化能力。
    • 2022年ChatGPT通过指令微调与人类反馈强化学习(RLHF)等对齐方法,让大模型以更符合人类使用习惯的对话方式对外呈现。

三、NLP主要任务

  1. 文本分类
  2. 命名实体识别: 非结构化文本转为结构化
  3. 关系抽取: 构建知识图谱
  4. 机器翻译
  5. 文本摘要
  6. 问答系统
  7. 文本生成
  8. 对话系统

四、NLP主要挑战

(1)语言、知识与推理的挑战
语言的歧义性
(2) 技术、数据与伦理的挑战

参考:datawhale课程
https://datawhalechina.github.io/base-llm/#/chapter1/01_nlp_intro

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容