登录注册写文章

Base-llm 之 1.1 NLP简介

Base-llm 之 1.1 NLP简介

一、 NLP 是什么

1.1 定义与核心任务

定义：它是ai领域重要组成部分，赋予计算机理解、解释、生成人类语言的能力，并基于这些能力对文本数据进行决策。
目标：我的理解是能够让机器，理解认知表达出来符合具有模糊性、情境性和复杂性的人类交流的。因为计算机通常都是精确、形式化的指令系统。

NLP通常包括自然语言理解和自然语言生成。

1.2 NLP技术层次

词法分析：主要工作为分词和词性标注（标出是什么词性，名词动词等语法决策）
句法分析：句子的语法结构。主谓宾啥的
语义分析：理解句子和词语的真是含义，解决歧义问题。主要包括语义消歧和关系抽取。

最近在看做agent，意图识别，其实就会遇到语义消歧的问题，一词多义的情况怎么解决。

语用分析：特定语境下理解语言的意图。难度最大。

二、NLP的发展历程：从规则到只能

（1）萌芽期：图灵测试与早期探索
（2）规则时代：符号主义的探索
（3）统计时代：数据的力量，很多基于概率的模型。N-gram模型、隐马尔科夫模型、条件随机场等。
（4）深度学习时代
* 2010年代，神经网络复兴
* 2013年word2vec将词语表示为稠密的数字向量，使模型能够在向量空间捕捉到一定的分布式语义规律。例如：向量国王-男人+女人 = 向量女王
* 2014年，注意力机制在神经机器翻译中被系统化提出，用于在生成当前词时对输入序列的不同位置分配不同权重，缓解信息压缩带来的性能瓶颈。
- 2017年， Transofmer，摆脱了RUNN顺序计算限制，使模型在处理每个token时能同时利用全局上下文信息。
- 2018 年 Bert通过掩码语言模型等预训练任务学习上下文语义表示，推动了预训练-微调范式的普及。
- 2020年GPT-3，带来了更强的少样本/零样本泛化能力。
- 2022年ChatGPT通过指令微调与人类反馈强化学习（RLHF）等对齐方法，让大模型以更符合人类使用习惯的对话方式对外呈现。

三、NLP主要任务

文本分类
命名实体识别：非结构化文本转为结构化
关系抽取：构建知识图谱
机器翻译
文本摘要
问答系统
文本生成
对话系统

四、NLP主要挑战

（1）语言、知识与推理的挑战
语言的歧义性
（2）技术、数据与伦理的挑战

参考：datawhale课程
https://datawhalechina.github.io/base-llm/#/chapter1/01_nlp_intro

最后编辑于：2026.03.19 17:27:26

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

LLM大语言模型第一章学习
教程链接：动手学大模型应用开发[https://datawhalechina.github.io/llm-univ...
xiaooai阅读 186评论 0赞 1
第一章 NLP 基础概念
NPL：一种让计算机理解、解释和生成人类语言的技术。通过计算机程序来模拟人类对语言的认知和使用过程。发展：早期探...
SeeYoo阅读 47评论 0赞 0

NLP自然语言处理-第一章NLP基础
第一章NLP基础在本章你将学到NLP（自然语言处理）相关的基础知识。本章要点包括： NLP基础概念 NLP的发...
Viterbi阅读 1,567评论 0赞 2
基于论文摘要的文本分类与关键词抽取挑战赛学习笔记
深度学习Topline:https://tvq27xqm30o.feishu.cn/docx/U1fzdqdE0o...
LPL_d5fc阅读 578评论 0赞 0
LLM架构从基础到精通之NLP基础2
# 自然语言处理（NLP）之建模：开启智能语言处理的核心引擎## 一、命名实体识别（NER）：信息提取的关键利器命...
AI论文解读阅读 225评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文