读大语言模型01导论.png

1. 导论

1.1. 自2022年ChatGPT惊艳问世以来，大语言模型领域的发展可谓日新月异

1.1.1. 震惊世界的DeepSeek，以及百度的文心大模型、阿里巴巴的Qwen大模型等

1.2. OpenAI于2022年11月面向公众发布了ChatGPT。ChatGPT是一种新型的AI（人工智能)程序，我们称之为大语言模型（large language model, LLM)

1.2.1. 你可以与大语言模型交谈并询问几乎任何事情
1.2.2. 大语言模型是由包含数万亿个词语的文本训练出来的神经网络模型，这构成了它丰富知识库的基础

1.3. 核心观点“人工智能将提升人类智慧”，如今，在法律、医疗、新闻、广告以及科学工程等众多领域使用大语言模型的从业者都能印证这一点

1.3.1. 事实上，对大多数人而言，人工智能正在帮助我们快速处理重复性工作，为更有价值的任务腾出时间，同时创造新的就业机会

1.4. 与这类语言模型对话，更像是在和一个无所不知却异常早熟的小孩子交流

1.4.1. 随着年龄增长，孩子们终将学会分清现实与想象，等到青春期，他们也会慢慢接受并认同自己文化中的价值观念
1.4.2. 大语言模型则像童话故事里的彼得·潘一样，永远停留在数字化的“永无乡”里，从未真正长大

1.5. 如何培养大语言模型的价值观念，使其具备判断是非的能力？

1.5.1. 目前的方法是通过精细调节来规范模型行为，需要针对每种不当行为设置具体的限制
1.5.2. 已有黑客发现了一些技巧，能够绕过这些安全限制

1.6. 相比人类的成长历程，大语言模型明显缺少两个关键阶段

1.6.1. 童年期—人类在这一阶段通过与物理世界和社会环境不断互动，逐步形成成熟的大脑神经网络
1.6.2. 青春期—这一时期人类的前额叶皮质尚未发育完善，待其成熟后，人类才能更好地控制冲动，做出合理判断

1.7. 相较于互联网改变社会的进程，人工智能对我们生活的革新速度可谓惊人

1.8. 到21世纪第二个十年，深度学习在图像识别、语音识别和语言翻译等人工智能经典难题上取得的突破令人震撼

1.8.1. 更让人惊叹的是深度学习与强化学习的完美结合
1.8.2. 从1992年TD-Gammon在双陆棋比赛中达到顶尖水平，到2017年AlphaGo击败围棋世界冠军
1.8.3. 2023年，大语言模型的突飞猛进让世界再次震惊
- 1.8.3.1. 语言作为人类最根本的能力，一直是我们判断智力水平的关键标准

1.9. 单凭外在行为是否足以判断意识的存在

1.9.1. 人工智能先驱马文·明斯基指出，专注于单一功能的计算机程序，如语音识别或语言翻译，仅能算作“应用程序
1.9.2. 真正的通用人工智能（AGI)应当像人类一样具备多样化的能力
1.9.3. 大语言模型在语言运用方面展现出的惊人能力，确实让我们在AGI的道路上前进了一步，而AGI正是人工智能领域的最终追求

1.10. 大语言模型是否真正理解它们所产生的内容？

1.10.1. 这个根本性问题不仅在语言学和计算机科学领域引起了巨大争议，还牵动了众多其他领域专家的神经
1.10.2. 我们要如何验证一个系统是否真正具备理解能力？
1.10.3. 对人类的理解过程本身，我们又了解多少？

1.11. 根据机器学习带来的新发现，现在是重新审视旧有概念的最佳时机

2. 大语言模型

2.1. 这种人工智能仅仅通过处理未标记的文本就能自主学习，虽然它既看不见、听不到，也没有感知能力，但它绝不是哑巴，其智能表现要比通过观看带字幕的电视节目来学习新语言更令人印象深刻

2.2. 自监督学习的大型语言模型作为基础模型，展现出惊人的多面性

2.2.1. 它们能够完成各种语言任务，仅需少量示例就能掌握新的语言技能

2.3. 大语言模型的输出并非完成品，而是一个优质的初稿

2.3.1. 这些初稿常常包含新颖的见解，既能加快创作进程，也能提升最终作品的质量
2.3.2. 虽然有人担忧人工智能可能取代人类，但目前的实践表明，大型语言模型实际上在帮助我们变得更智慧、更有效率

2.4. 人类很容易对聊天机器人产生“理解幻觉”，误以为机器真的理解了对话的内容

2.5. 大语言模型的工作原理是通过自监督学习来预测文本中的下一个词元

2.6. 大脑新皮质是哺乳动物在2亿年前进化出的大脑表层褶皱结构

2.6.1. 大脑其他更古老的部分，才是负责自主行为和生存本能的关键

2.7. 就像被限制在“桶中的大脑”，要想与物理世界直接互动，就必须突破这个桶的限制

2.7.1. 目前的大语言模型还无法实现这一点，原因有二
- 2.7.1.1. 它们缺乏物理形态
- 2.7.1.2. 它们仅模拟了大脑新皮质的功能

2.8. 批评者常把大语言模型比作简单的复读机，认为它们只是在重复训练数据库中的内容

2.8.1. 虽然这些模型是在庞大却有限的语料库中训练的，但它们却必须在无限的语言空间中生成新的句子并完成各种语言任务，这种能力就是“泛化”
2.8.2. 它们必须建立训练数据的内部表征，以及基于这种表征生成新的、恰当的回应
2.8.3. 如果训练数据集相对于模型参数量过小，就会出现“过度拟合”现象，即模型只能记住具体例子，无法学习词语之间的关联关系，也就无法实现泛化

2.9. 泛化能力不仅是大语言模型的关键特征，也是人类认知的核心要素

2.10. 围棋对弈中存在着可供学习的内在规律，这些规律可以指导人工智能在相似局面下做出合理的应对

2.10.1. 大语言模型也已经构建起了对现实世界知识的内在模型

2.11. 生成图片

2.11.1. 通过人工智能图像生成模型DALL-E，我们可以直观地理解人工智能的泛化能力
2.11.2. 泛化能力生动地展示了人工智能模型如何从已知概念延伸到新的创意空间D
2.11.3. 虽然人类艺术家同样具备泛化创作的能力，但这需要投入大量时间进行练习和磨炼
- 2.11.3.1. 人工智能图像生成技术可以在一秒内完成创作，这种效率令人惊叹
2.11.4. 人工智能图像生成技术也能够模仿任何艺术风格，创作出以假乱真的图像，这些图像的真实性很难被普通人识别

2.12. 大语言模型在创意领域展现出了惊人的潜力，其应用范围包括故事创作、幽默创作、歌曲创作、剧本写作和交互式游戏开发等多个方面

3. 多种多样的大语言模型

3.1. 由于采用了不同的对齐或微调方法，每个模型都有其特点

3.1.1. 可以通过专业数据库进行进一步微调，从而为企业、专业人士和公众打造专属的应用生态系统

3.2. ChatGPT

3.2.1. OpenAI开发的最知名大语言模型。其基础版本GPT-3.5免费使用，运行快速，性价比高
3.2.2. 2024年5月发布的GPT-4虽需付费订阅，但却是目前功能最为强大的大语言模型之一
3.2.3. 不仅支持多语言交互，还能处理图像输入
3.2.4. 其升级版本GPT-4 Turbo的响应速度比前代提升了一倍

3.3. 必应（Bing)

3.3.1. 微软基于GPT技术优化的搜索引擎
3.3.2. 能够连接互联网，并提供可供用户核实的参考来源
3.3.3. 在创意和精确两种模式下，必应都采用GPT-4技术，用户体验友好

3.4. Gemini

3.4.1. 由谷歌开发，支持互联网连接，可使用40多种语言，服务范围覆盖230多个国家和地区
3.4.2. 三个版本
- 3.4.2.1. 适用于手机等终端设备的Gemini Nano
- 3.4.2.2. 作为谷歌聊天机器人Bard的核心并具备多模态能力的Gemini Pro
- 3.4.2.3. 性能最强的Gemini Ultra

3.5. Llama

3.5.1. Meta公司推出的最新大语言模型
3.5.2. 第三代产品Llama 3采用开源方式，用户可以访问和修改源代码

3.6. Claude

3.6.1. 由美国人工智能企业Anthropic公司开发，使用体验出色，性能与GPT-4不相上下
3.6.2. 它能够处理整本图书

3.7. Le Chat

3.7.1. 法国新创公司Mistral开发的精简版开源大语言模型，性能接近GPT-4

3.8. Grok

3.8.1. 由xAI开发，可在社交平台X上使用
3.8.2. 它以机智幽默和独特个性著称
3.8.3. 模型本身开源，但训练代码不开源

3.9. Perplexity

3.9.1. 能够从互联网筛选可靠信息源，并提供引用链接供用户核实

3.10. Mistral

3.10.1. 采用优质数据训练，性能可与GPT-4媲美
3.10.2. 该模型已开源，为多个实用型大语言模型提供技术支持

4. ChatGPT

4.1. 自从OpenAI于2022年11月推出ChatGPT以来，公众对它的热情持续高涨

4.1.1. 短短两个月内，其用户数量就突破1亿大关，这一增长速度远超谷歌和脸书在起步阶段的表现
4.1.2. 从协助医生增进对患者的同理心，到推动图形处理器（GPU)制造商英伟达市值突破3万亿美元
4.1.3. GPU内含大量被称为“核心”的处理单元，它在游戏中进行的快速图形运算，恰好与神经网络模型中的运算原理相同

4.2. 尽管ChatGPT不是人类，但大语言模型在处理和提取海量文本数据方面已经超越了人类的能力

4.3. ChatGPT背后的技术是一种名为Transformer的深度学习架构，它显著提升了较为简单的深度学习网络在各种语言任务上的表现，并彻底改变了人工智能的格局

4.4. ChatGPT和其他大型语言模型的发展速度令人瞠目

4.5. ChatGPT在托兰斯创造性思维测验中表现出色，位居前1%，超越了绝大多数参与者

4.5.1. 在流畅性（快速产生大量想法的能力)和原创性（开发新颖想法的能力)方面，其表现处于最高百分位
4.5.2. 在灵活性（产生不同类型和类别想法的能力)方面，它位居前3%

4.6. 使用ChatGPT写作则截然不同

4.6.1. 无论是创作短篇故事，还是总结文章，你只需向这个大语言模型输入指令，就能立即得到一份相当完整的初稿
4.6.2. 大语言模型帮你完成了最繁重的基础工作，让你可以专注于更有创意的修饰环节
4.6.3. 在使用ChatGPT时，你只需调整提示词，重新生成即可立即得到更好版本的文章
4.6.4. ChatGPT不仅是一个趣味十足的写作助手，更是一个能够提升我们写作能力的智能工具

5. 工作会被取代

5.1. 近来，媒体频频对人工智能取代人类工作发出警示，引发了普遍的焦虑

5.2. 工业革命对每个身处其中的人都产生了深远影响

5.2.1. 蒸汽机的发明大大提升了人类的生产力
5.2.2. 与使用马匹耕作相比，农民的耕地面积扩大了百倍
- 5.2.2.1. 这导致养活同等人口所需的农民数量显著减少
5.2.3. 随之而来的是大量新兴工作岗位，为了让劳动者掌握机器操作技能，教育规模也随之扩大。这场持续了百年的转变，让几代人有足够的时间去适应

5.3. 工业革命后，农业和建筑等体力劳动密集型工作发生了根本性转变，而医生、律师和教师等脑力工作则基本维持原貌

5.3.1. 即便在同一就业领域内部，工作技能也在不断演变

5.4. 大语言模型代表着信息革命的最新发展阶段

5.5. 过去50年间，不少人曾预言自动化将导致大规模失业，引发社会动荡

5.5.1. 悲观预测并未成真的原因
- 5.5.1.1. 现有工作在自动化浪潮中实现了转型升级
- 5.5.1.2. 新技术催生了大量新兴就业机会

5.6. 信息时代催生了大量新兴职业

5.6.1. 可以预见会出现更多与现有工作相关的新职业机会
5.6.2. 当日常工作实现自动化后，我们不必再为完成基础工作而烦恼，转而可以投入更富创造性和趣味性的工作中，选择空间也会更加广阔
5.6.3. 人工智能不会让我们失业，而是会推动工作形态的转变

5.7. 工业革命让人类获得了强大的体力，而信息革命则极大地提升了人类的认知能力

5.7.1. 与工业革命相比，信息革命发展速度惊人，短短几十年就完成了工业革命需要几个世纪才能实现的跨越

6. 互联网的出现催生的新型职业

6.1. 网页开发者和设计师：负责网站的设计与开发，确保网站既实用美观，又功能完善

6.2. 内容创作者：包括博主、视频创作者、播客主持人等，他们通过互联网平台制作和传播各类内容

6.3. 社交媒体运营经理：负责企业或个人的社交媒体账号运营，致力于提升品牌形象和用户互动

6.4. 数字营销专员：运用搜索引擎优化、点击付费广告和电子邮件营销等工具开展网络营销活动

6.5. 搜索引擎优化专家：专门提升网站在搜索引擎中的排名，帮助企业增加网络曝光度

6.6. 电子商务专家：管理在线商城的日常运营，包括销售、物流和客服等环节

6.7. 数据科学家和数据分析师：通过分析海量数据，为企业提供决策支持

6.8. 网络安全分析师：负责保护网络系统安全，防范各类网络威胁

6.9. 应用程序开发工程师：开发和维护iOS、安卓等平台的移动应用

6.10. 远程客服代表：通过电子邮件、在线聊天或社交媒体提供远程客户服务

6.11. 在线教育工作者：随着互联网的发展，在线教育迅速兴起，为线上教师、导师和课程开发者创造了大量就业机会

6.12. 云服务专家：协助企业进行云端迁移和数据存储管理

6.13. 用户体验/界面设计师：专注于设计友好的数字界面，优化用户使用体验

6.14. 网红：他们在社交媒体平台上积累大量粉丝，通过品牌赞助内容和品牌合作实现商业变现

6.15. 社群运营经理：负责管理在线社区，促进用户互动和社区活跃度

读大语言模型01导论