2. 自然语言处理

在谈论 Transformer 模型之前,让我们快速了解一下什么是自然语言处理以及我们为什么关心它。

什么是 NLP?

NLP 是语言学和机器学习的一个领域,专注于理解与人类语言相关的一些事物。NLP 任务的目标不仅是理解单个单词,还要能够理解这些单词的上下文。

一下是常见的 NLP 任务的列表,其中每个任务都有一些示例:

  • 对整个句子进行分类:获取评论的情感、检测电子邮件是否为垃圾邮件、确定句子的语法是否正确或两个句子是否具有逻辑相关性
  • 对句子中的每个单词进行分类:识别句子的语法成分(名词、动词、形容词)或命名实体(人、地点、组织)
  • 生成文本内容:使用自动生成的文件完成提示,使用批彼此填充文本中的空白
  • 从文件中提取答案:给定一个问题和一个上下文,根据上下文提供的信息提取问题的答案
  • 从输入文件生成新句子:将文本翻译成另一种语言,总结文本

不过,NLP 并不局限于书面文本。它还能解决语音识别和计算机视觉方面的复杂挑战,例如生成音频样本的抄本或图像的描述。

为什么它具有挑战性?

计算机处理信息的方式与人类不同。例如,当我们读到 “我饿了” 这句话时,我们很容易理解它的意思。同样,给定 “我饿了” 和 “我难过” 这两个句子,我们也很容易地判断它们有多相似。对于机器学习(ML)模型来说,这样的任务更加困难。需要以一种能让模型从中学习的方式处理文本。由于语言很复杂,我们需要仔细思考进行这一处理。关于如何表示文本已经进行大量研究,我们将在下一章中讨论一些方法。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容