第一章目录
1.理解大语言模型
1.1 什么是大语言模型?
**1.2 大语言模型的应用**
1.3 构建与使用大语言模型的阶段
1.4 介绍 Transformer 架构
1.5 利用大型数据集
1.6 深入探究 GPT 架构
1.7 构建一个大语言模型
1.2 大语言模型(LLMs)的应用
由于大语言模型具备解析和理解非结构化文本数据的先进能力,它们在各个领域有着广泛的应用。如今,大语言模型被用于机器翻译、生成新文本(见图1.2)、情感分析、文本摘要,以及许多其他任务。最近,大语言模型还被用于内容创作,比如撰写小说、文章,甚至是计算机代码。
大语言模型还可以为复杂的聊天机器人和虚拟助手提供支持,比如OpenAI的ChatGPT或者谷歌的Gemini(之前被称为Bard),它们能够回答用户的问题,并增强谷歌搜索或微软必应等传统搜索引擎的功能。
此外,大语言模型可用于从医学或法律等专业领域的海量文本中有效地检索知识。这包括筛选文档、总结长篇内容,以及回答专业技术问题。
简而言之,大语言模型对于自动化几乎所有涉及解析和生成文本的任务来说都无比珍贵。它们的应用几乎无穷无尽,而且随着我们不断创新,探索使用这些模型的新方式,显然大语言模型有潜力重塑我们与技术的关系,使其变得更具对话性、更直观,也更容易上手。
我们将着重从基础开始理解大语言模型是如何运作的,编写一个能够生成文本的大语言模型。你还会学到让大语言模型执行各类查询的技术,这些查询涵盖回答问题、文本总结、将文本翻译成不同语言等等。换句话说,你将通过逐步搭建的方式,了解像ChatGPT这样复杂的大语言模型助手是如何工作的。