机器学习 ChatGPT , DeepSeek, CLIP, DALL-E （持续整理）

1.架构区别

技术层级分类表（含时间轴）

模型	架构层	技术组件/中间层	基础层
ChatGPT	Transformer (2017)	自注意力机制(2017)、位置编码(2017)	多层感知器(1958)、Softmax(1969)、反向传播(1986)
DeepSeek	深度神经网络（DNN）	CNN(1980/2012)+Transformer(2017)	卷积核(1980)、全连接层(1958)、梯度下降(1951)
CLIP	双模态架构 (2021)	Transformer(2017)、ResNet(2015)	多头注意力(2017)、残差连接(2015)、MLP(1958)
DALL-E	生成式Transformer (2021)	扩散模型(2015)、VQ-VAE(2017)	卷积网络(1980)、自回归采样(1990)、KL散度(1951)

技术演进时间线（精选）

gantt
    title 人工智能关键技术演进时间轴
    dateFormat  YYYY
    axisFormat %Y
    
    section 基础技术
    梯度下降        :1951, 1y
    MLP            :1958, 1y
    CNN卷积核       :1980, 1y
    
    section 突破性架构
    Transformer    :2017, 3y
    ResNet         :2015, 2y
    VQ-VAE         :2017, 2y
    
    section 应用模型
    CLIP           :2021, 2y
    DALL-E         :2021, 2y
    ChatGPT        :2022, 2y

关键时间节点说明

梯度下降 (1951): 由H. Robbins和S. Monro提出最优化基础算法
MLP (1958): Frank Rosenblatt提出感知机原型
CNN卷积核 (1980): Kunihiko Fukushima提出神经认知机原型
ResNet (2015): 微软研究院提出深度残差学习框架
Transformer (2017): Google《Attention Is All You Need》论文
VQ-VAE (2017): DeepMind提出离散潜在空间表示方法
扩散模型 (2015): 理论提出，2020年后结合深度学习实现突破
自回归采样 (1990): 基于RNN的序列生成技术起源

2.字典

GPT （2018）

（全名：Chat Generative Pre-trained Transformer）生成式预训练变换器，是一种大型语言模型（LLM），也是生成式人工智能的重要框架,首个GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神经网络

Transformer模型（2017）

是一种采用注意力机制的深度学习模型。Transformer模型于2017年由谷歌大脑的一个团队推出，现已逐步取代长短期记忆（LSTM）等RNN模型成为了NLP问题的首选模型

RNN模型 Recurrent neural network (1986)

循环神经网络（Recurrent neural network：RNN）是神经网络的一种

**1982年，约翰·霍普菲尔德发现了Hopfield神经网络——一种特殊的RNN

Hopfield神经网络（1982）

Hopfield网络是一种结合存储系统和二元系统的神经网络

我们可以将神经元比作一个“开关”，而整个 Hopfield 网络就像一个“灯光控制系统”

1. 网络结构

在 Hopfield 网络中，有很多小“开关”，每个开关代表一个神经元。我们用 \( s_i \) 来表示这些开关的状态，\( s_i \) 可以是 \( +1 \)（开）或 \( -1 \)（关）。

解释：想象每个神经元就像一个房间里的灯光开关。每个开关可以是“开”（亮）或“关”（灭）。当开关打开时，房间里有光；当开关关闭时，房间里就黑暗

2. 能量函数

能量函数 \( E \) 就像是一个“评分系统”，用来判断当前网络状态的好坏。公式中有两个求和符号，表示我们要考虑每一对神经元之间的相互作用。

$E = -\frac{1}{2} \sum_{i \neq j} w_{ij} s_i s_j$

如果两个神经元的状态相同（都开或都关），它们的相互作用对能量是有利的，能量会降低。
如果两个神经元的状态不同（一个开，一个关），它们的相互作用会增加能量。

所以，网络的目标就是让这个能量 ( E ) 尽可能低，找到一个“最舒服”的状态。

解释：整个系统的目标是让房间里的光线尽可能**均匀**和**舒适**。能量函数就像是一个“舒适度评分”，它会评估当前所有开关的状态。系统会尝试调整开关，降低这个评分，使房间里的光线更加和谐。

3. 权重的设置

在训练阶段，我们需要告诉网络如何存储信息。这个过程通过计算权重 ( w_{ij} ) 来实现，权重可以看作是神经元之间的“连接强度”。

$w_{ij} = \frac{1}{p} \sum_{\mu=1}^{p} s_i^{\mu} s_j^{\mu}$

这里的公式表示，我们要根据每个存储的模式来计算这些权重。简单来说，权重越大，两个神经元之间的连接就越强，意味着它们的状态会更容易相互影响。

解释：不同的开关之间可能有电线连接（权重），这些连接的强度决定了一个开关对另一个开关的影响力。比如，某些开关的连接很强，打开一个开关可能会导致另一个开关也打开；而有些连接较弱，影响就小

4. 状态更新

当我们输入一个模糊的模式时，网络会根据当前的状态和权重来更新每个神经元的状态。

首先，网络会计算每个神经元的“净输入” ( h_i )，这就像是每个开关接收到的信号。

$h_i = \sum_{j} w_{ij} s_j$

然后，根据这个信号来决定开关的状态：
- 如果信号很强（( h_i > 0 )），开关就会打开（变为 ( +1 )）。
- 如果信号较弱（( h_i \leq 0 )），开关就会关闭（变为 ( -1 )）。

解释：当你试图打开某个房间的灯，但你不记得开关的位置时，你可能会尝试不同的开关。这就像输入一个模糊的模式，系统会根据当前的状态和连接来判断哪个开关应该打开

5. 收敛与输出

网络会不断地进行状态更新，直到所有的开关都不再变化，达到一个稳定的状态。在这个状态下，能量函数 ( E ) 达到最低点。

最后，网络输出的状态 ( s ) 就是与输入的模糊信息最接近的完整模式。

解释：系统会不断调整开关的状态，直到所有开关都稳定下来，达到一个理想的光线状态。这就像是你不断试验，最终找到最合适的开关组合，使得房间里的光线最为舒适。

总结

简单来说，Hopfield 神经网络就像一个智能的记忆机器。它通过计算能量来判断当前状态的好坏，设置连接强度来存储信息，并根据输入的模糊信号不断调整状态，最终帮助我们找回完整的信息。

解释：每个开关（神经元）通过电线（权重）相互影响，系统的目标是找到一个最舒适的光线状态（最低能量），从而帮助我们在模糊情况下找到正确的开关组合（输出模式）

问题

局部最优解 / 能量函数的形状 / 初始状态的影响

这样一套系统可能会导致生成的解决方案导致灯光在局部是均匀的，等于是只找到某个区域的最优解，找到后这套系统就无法继续去寻找全局的最优解了，有很强的区域局限性，而且很多时候，如果你一开始就选择了某些开关为“亮”，系统可能会在这些状态附近寻找解决方案，而忽视其他可能的组合

随机重启/模拟退火/遗传算法/增强学习

随机重启：想象你在一个大房子里，试图找到最佳的灯光组合。每次你开始时，随机选择一些开关的状态（亮或灭）。这就像是每次重启时，随机选择不同的开关组合，就会有更多的可能性

模拟退火：假设你在调节房间里的灯光，刚开始时你非常严格，只允许开关变亮。但随着时间推移，你变得更宽松，允许某些开关暂时变暗，即使这样可能让光线变得不均匀

遗传算法：想象你有多个房间，每个房间的灯光组合都是一个“个体”。你可以选择一些效果最好的房间组合（“父母”），然后将它们的开关状态混合（交叉），再添加一些随机的变化（变异），形成新的灯光组合（“后代”）

增强学习: 想象你在控制灯光的过程中，逐渐学习哪些开关组合产生最佳的光线效果。每次调整后，你会记住哪些组合让房间感觉更舒适（奖励），哪些组合让房间不适（惩罚）

LSTM Long Short-Term Memory （1997）

是一种时间循环神经网络（RNN），论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件

同样我们把这个神经网络也类比成灯光控制系统，想象一个智能家居系统，能够根据时间、天气、用户习惯等因素自动调整房间的灯光。这个系统需要记住过去的光线设置，以便在未来做出更好的决策

LSTM 网络主要由以下几个部分组成：

输入门：决定哪些新信息需要被存储。
遗忘门：决定哪些旧信息需要被丢弃。
输出门：决定当前的输出。
细胞状态：代表长期记忆。

1. 输入门（Input Gate）

公式：
$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$

解释：

这里的 (x_t) 可以看作当前的环境信息（如时间、天气等），而 (h_{t-1}) 是之前的状态（如之前的灯光设置）。
输入门 (i_t) 决定了哪些新的环境信息需要被接纳并影响灯光设置。

2. 遗忘门（Forget Gate）

公式：
$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$

解释：

遗忘门 (f_t) 决定了哪些旧的灯光设置需要被遗忘。比如，如果天气变晴，系统可能会决定忘记之前的昏暗设置。

3. 细胞状态（Cell State）

公式：
$C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C_t}$

解释：

细胞状态 (C_t) 代表系统的长期记忆。它结合了之前的状态 (C_{t-1})（之前的灯光设置）和新的信息（当前环境的影响）。
(\tilde{C_t}) 是候选值，代表新的灯光设置。这个值通过某种方式计算得出，反映了当前环境的影响。

4. 输出门（Output Gate）

公式：
$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$

解释：

输出门 (o_t) 决定了当前的灯光设置。它根据当前的状态和输入信息，控制实际的灯光开关。

5. 最终输出

公式：
$h_t = o_t \cdot \tanh(C_t)$

解释：

最终的输出 (h_t) 代表当前的灯光设置。通过输出门的控制，结合细胞状态，系统决定了具体的灯光亮度和开关状态。

总结

灯光控制系统通过输入门、遗忘门、细胞状态和输出门的协调工作，动态调整灯光设置，正如LSTM在处理序列数据时，通过这些门控机制有效地管理信息和记忆。这种类比帮助我们更直观地理解LSTM在时间序列预测和其他任务中的应用。

问题

梯度消失和爆炸

问题：在长序列中，梯度可能消失或爆炸，导致训练不稳定。
解释：想象一个灯光控制系统，如果环境变化（如光照变化）过于剧烈，控制信号可能会失去效用（消失）或过于强烈（爆炸），导致灯光效果不稳定。
解决方案
- 梯度裁剪：在信号过强时限制控制信号的强度，保持灯光效果稳定。
- 使用更深的网络：通过增加灯光控制系统的传感器层次，使其更准确地响应环境变化。

计算复杂度

问题：LSTM的复杂结构导致计算量大，训练时间较长。
解释：一个复杂的灯光控制系统需要多个传感器和控制单元，可能导致响应时间变慢。
解决方案
- 模型简化：减少传感器数量或控制单元，简化灯光控制逻辑。
- 并行计算：利用多个控制单元同时处理信号，提高响应速度。

超参数调节

问题：LSTM有许多超参数，调节困难且耗时。
****解释：：在灯光控制系统中，需调节多个参数（如亮度、色温、开关时间等），这需要大量实验来找到最佳设置。
解决方案
- 自动化调节：使用智能算法自动寻找最佳灯光设置，减少人工调节的时间。
- 交叉验证：在不同环境下测试灯光设置，确保在各种情况下都能达到最佳效果。

长序列依赖问题

问题：LSTM在捕捉远距离依赖关系方面可能表现不佳。
解释：如果灯光控制系统只依赖最近的环境信息，可能无法有效应对长期变化（如季节变化）。
解决方案
- 层次化模型：通过分层控制系统，分别处理短期和长期的环境变化。
- 注意力机制：引入智能算法，让灯光系统关注重要的环境变化，而不是仅仅依赖最近的信息。

过拟合

问题：在小数据集上训练时，LSTM容易过拟合。
解释：灯光控制系统在特定环境下表现良好，但在新的环境中可能无法适应。
解决方案
- 正则化：通过设置限制，确保灯光控制系统不会过于依赖于特定的环境输入。
- 数据增强：模拟多种环境条件，增加训练数据的多样性，使系统更具适应性。
- 提前停止：监控灯光控制系统在不同环境下的表现，及时调整设置以防止过拟合。

GRU Gated Recurrent Unit (2014)

GRU（Gated Recurrent Unit）是一种对 LSTM 稍微改进的循环神经网络，由 Cho 等人（2014年）提出。它将遗忘门和输入门合并成一个单一的“更新门”，同时将 cell state 和隐藏状态合并，并进行了其他一些改动。GRU模型相对于标准的 LSTM 模型来说更加简单，并且越来越受到广泛关注和应用

1. 结构复杂性

LSTM：
- 解释：想象一个复杂的灯光控制系统，包含多个传感器和控制单元。每个控制单元都有多个开关和调节器，以管理不同的灯光参数（如亮度、色温、开关状态等）。
- 特点：LSTM有三个门（输入门、遗忘门和输出门），使其能够精确地控制信息的流动和保留。
GRU：
- 解释：相比之下，GRU就像一个更简化的灯光控制系统，只有两个主要控制单元（重置门和更新门）。这个系统仍然能够有效地调节灯光，但结构更简单。
- 特点：GRU将输入门和遗忘门合并为更新门，简化了信息处理的流程。

2. 信息处理

LSTM：
- 解释：LSTM能够根据环境变化进行复杂的灯光调节，比如在不同的时间段（白天、夜晚）或不同的场景（聚会、安静时光）中，灵活调整灯光效果。
- 特点：LSTM通过多个门的组合，能够更细致地控制信息的保留和遗忘。
GRU：
- 解释：GRU虽然简化了控制逻辑，但仍然能够根据环境变化调整灯光。例如，它可以在白天和夜晚之间快速切换灯光设置，但可能在复杂场景下的调节不如LSTM灵活。
- 特点：GRU通过重置门和更新门的组合，能够有效处理信息，但在处理复杂依赖时可能不如LSTM细致。

3. 训练效率

LSTM：
- 解释：由于其复杂性，LSTM的灯光控制系统在调整时可能需要更多的时间和资源，尤其是在复杂场景下。
- 特点：LSTM的训练和调节通常需要更多的计算资源和时间。
GRU：
- 解释：GRU的灯光控制系统由于结构简单，可以更快地响应环境变化，调节效率更高。
- 特点：GRU通常训练速度更快，计算资源消耗较少，适合快速响应的应用。

4. 性能与适用场景

LSTM：
- 解释：在需要复杂调节和长时间依赖的场景（如智能家居系统中，灯光与其他设备的联动）中，LSTM表现更为出色。
- 特点：适合处理长序列和复杂依赖关系的任务。
GRU：
- 解释：在需要快速响应和较少复杂性的场景中（如简单的定时开关灯光），GRU会更有效。
- 特点：适合处理短序列或较少复杂性的任务。

总结

我们可以看到LSTM和GRU在结构复杂性、信息处理能力、训练效率和适用场景等方面的区别。LSTM适合需要复杂调节的场景，而GRU则在快速响应和简单调节方面表现更佳。这种对比有助于理解在不同任务中选择合适模型的重要性。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,402评论 6赞 499
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,377评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,483评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,165评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,176评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,146评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,032评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,896评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,311评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,536评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,696评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,413评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,008评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,815评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,698评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,592评论 2赞 353

机器学习 ChatGPT , DeepSeek, CLIP, DALL-E （持续整理）

机器学习 ChatGPT , DeepSeek, CLIP, DALL-E （持续整理）

1.架构区别

技术层级分类表（含时间轴）

技术演进时间线（精选）

关键时间节点说明

2.字典

GPT （2018）

Transformer模型 （2017）

RNN模型 Recurrent neural network (1986)

Hopfield神经网络 （1982）

1. 网络结构

2. 能量函数

3. 权重的设置

4. 状态更新

5. 收敛与输出

总结

问题

局部最优解 / 能量函数的形状 / 初始状态的影响

LSTM Long Short-Term Memory （1997）

1. 输入门（Input Gate）

2. 遗忘门（Forget Gate）

3. 细胞状态（Cell State）

4. 输出门（Output Gate）

5. 最终输出

总结

问题

梯度消失和爆炸

计算复杂度

超参数调节

长序列依赖问题

过拟合

GRU Gated Recurrent Unit (2014)

1. 结构复杂性

2. 信息处理

3. 训练效率

4. 性能与适用场景

总结

推荐阅读更多精彩内容

Transformer模型（2017）

Hopfield神经网络（1982）