机器学习 ChatGPT , DeepSeek, CLIP, DALL-E (持续整理)

机器学习 ChatGPT , DeepSeek, CLIP, DALL-E (持续整理)

1.架构区别

技术层级分类表(含时间轴)

模型 架构层 技术组件/中间层 基础层
ChatGPT Transformer (2017) 自注意力机制(2017)、位置编码(2017) 多层感知器(1958)、Softmax(1969)、反向传播(1986)
DeepSeek 深度神经网络(DNN) CNN(1980/2012)+Transformer(2017) 卷积核(1980)、全连接层(1958)、梯度下降(1951)
CLIP 双模态架构 (2021) Transformer(2017)、ResNet(2015) 多头注意力(2017)、残差连接(2015)、MLP(1958)
DALL-E 生成式Transformer (2021) 扩散模型(2015)、VQ-VAE(2017) 卷积网络(1980)、自回归采样(1990)、KL散度(1951)

技术演进时间线(精选)

gantt
    title 人工智能关键技术演进时间轴
    dateFormat  YYYY
    axisFormat %Y
    
    section 基础技术
    梯度下降        :1951, 1y
    MLP            :1958, 1y
    CNN卷积核       :1980, 1y
    
    section 突破性架构
    Transformer    :2017, 3y
    ResNet         :2015, 2y
    VQ-VAE         :2017, 2y
    
    section 应用模型
    CLIP           :2021, 2y
    DALL-E         :2021, 2y
    ChatGPT        :2022, 2y

关键时间节点说明

  1. 梯度下降 (1951): 由H. Robbins和S. Monro提出最优化基础算法
  2. MLP (1958): Frank Rosenblatt提出感知机原型
  3. CNN卷积核 (1980): Kunihiko Fukushima提出神经认知机原型
  4. ResNet (2015): 微软研究院提出深度残差学习框架
  5. Transformer (2017): Google《Attention Is All You Need》论文
  6. VQ-VAE (2017): DeepMind提出离散潜在空间表示方法
  7. 扩散模型 (2015): 理论提出,2020年后结合深度学习实现突破
  8. 自回归采样 (1990): 基于RNN的序列生成技术起源

2.字典

GPT (2018)

(全名:Chat Generative Pre-trained Transformer)生成式预训练变换器,是一种大型语言模型(LLM),也是生成式人工智能的重要框架,首个GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神经网络

Transformer模型 (2017)

是一种采用注意力机制的深度学习模型。Transformer模型于2017年由谷歌大脑的一个团队推出,现已逐步取代长短期记忆(LSTM)等RNN模型成为了NLP问题的首选模型

RNN模型 Recurrent neural network (1986)

循环神经网络(Recurrent neural network:RNN)是神经网络的一种

**1982年,约翰·霍普菲尔德发现了Hopfield神经网络——一种特殊的RNN

Hopfield神经网络 (1982)

Hopfield网络是一种结合存储系统和二元系统的神经网络

我们可以将神经元比作一个“开关”,而整个 Hopfield 网络就像一个“灯光控制系统”

1. 网络结构

在 Hopfield 网络中,有很多小“开关”,每个开关代表一个神经元。我们用 \( s_i \) 来表示这些开关的状态,\( s_i \) 可以是 \( +1 \)(开)或 \( -1 \)(关)。

解释:想象每个神经元就像一个房间里的灯光开关。每个开关可以是“开”(亮)或“关”(灭)。当开关打开时,房间里有光;当开关关闭时,房间里就黑暗

2. 能量函数

能量函数 \( E \) 就像是一个“评分系统”,用来判断当前网络状态的好坏。公式中有两个求和符号,表示我们要考虑每一对神经元之间的相互作用。

E = -\frac{1}{2} \sum_{i \neq j} w_{ij} s_i s_j

  • 如果两个神经元的状态相同(都开或都关),它们的相互作用对能量是有利的,能量会降低。
  • 如果两个神经元的状态不同(一个开,一个关),它们的相互作用会增加能量。

所以,网络的目标就是让这个能量 ( E ) 尽可能低,找到一个“最舒服”的状态。

解释:整个系统的目标是让房间里的光线尽可能**均匀**和**舒适**。能量函数就像是一个“舒适度评分”,它会评估当前所有开关的状态。系统会尝试调整开关,降低这个评分,使房间里的光线更加和谐。

3. 权重的设置

在训练阶段,我们需要告诉网络如何存储信息。这个过程通过计算权重 ( w_{ij} ) 来实现,权重可以看作是神经元之间的“连接强度”。

w_{ij} = \frac{1}{p} \sum_{\mu=1}^{p} s_i^{\mu} s_j^{\mu}

  • 这里的公式表示,我们要根据每个存储的模式来计算这些权重。简单来说,权重越大,两个神经元之间的连接就越强,意味着它们的状态会更容易相互影响。

解释:不同的开关之间可能有电线连接(权重),这些连接的强度决定了一个开关对另一个开关的影响力。比如,某些开关的连接很强,打开一个开关可能会导致另一个开关也打开;而有些连接较弱,影响就小

4. 状态更新

当我们输入一个模糊的模式时,网络会根据当前的状态和权重来更新每个神经元的状态。

  • 首先,网络会计算每个神经元的“净输入” ( h_i ),这就像是每个开关接收到的信号。

h_i = \sum_{j} w_{ij} s_j

  • 然后,根据这个信号来决定开关的状态:
    • 如果信号很强(( h_i > 0 )),开关就会打开(变为 ( +1 ))。
    • 如果信号较弱(( h_i \leq 0 )),开关就会关闭(变为 ( -1 ))。

解释:当你试图打开某个房间的灯,但你不记得开关的位置时,你可能会尝试不同的开关。这就像输入一个模糊的模式,系统会根据当前的状态和连接来判断哪个开关应该打开

5. 收敛与输出

网络会不断地进行状态更新,直到所有的开关都不再变化,达到一个稳定的状态。在这个状态下,能量函数 ( E ) 达到最低点。

  • 最后,网络输出的状态 ( s ) 就是与输入的模糊信息最接近的完整模式。

解释:系统会不断调整开关的状态,直到所有开关都稳定下来,达到一个理想的光线状态。这就像是你不断试验,最终找到最合适的开关组合,使得房间里的光线最为舒适。

总结

简单来说,Hopfield 神经网络就像一个智能的记忆机器。它通过计算能量来判断当前状态的好坏,设置连接强度来存储信息,并根据输入的模糊信号不断调整状态,最终帮助我们找回完整的信息。

解释: 每个开关(神经元)通过电线(权重)相互影响,系统的目标是找到一个最舒适的光线状态(最低能量),从而帮助我们在模糊情况下找到正确的开关组合(输出模式)

问题

局部最优解 / 能量函数的形状 / 初始状态的影响

这样一套系统可能会导致生成的解决方案导致灯光在局部是均匀的,等于是只找到某个区域的最优解,找到后这套系统就无法继续去寻找全局的最优解了,有很强的区域局限性,而且很多时候,如果你一开始就选择了某些开关为“亮”,系统可能会在这些状态附近寻找解决方案,而忽视其他可能的组合

随机重启/模拟退火/遗传算法/增强学习

随机重启:想象你在一个大房子里,试图找到最佳的灯光组合。每次你开始时,随机选择一些开关的状态(亮或灭)。这就像是每次重启时,随机选择不同的开关组合,就会有更多的可能性

模拟退火:假设你在调节房间里的灯光,刚开始时你非常严格,只允许开关变亮。但随着时间推移,你变得更宽松,允许某些开关暂时变暗,即使这样可能让光线变得不均匀

遗传算法:想象你有多个房间,每个房间的灯光组合都是一个“个体”。你可以选择一些效果最好的房间组合(“父母”),然后将它们的开关状态混合(交叉),再添加一些随机的变化(变异),形成新的灯光组合(“后代”)

增强学习: 想象你在控制灯光的过程中,逐渐学习哪些开关组合产生最佳的光线效果。每次调整后,你会记住哪些组合让房间感觉更舒适(奖励),哪些组合让房间不适(惩罚)

LSTM Long Short-Term Memory (1997)

是一种时间循环神经网络(RNN),论文首次发表于1997年。由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件

同样我们把这个神经网络也类比成灯光控制系统,想象一个智能家居系统,能够根据时间、天气、用户习惯等因素自动调整房间的灯光。这个系统需要记住过去的光线设置,以便在未来做出更好的决策

LSTM 网络主要由以下几个部分组成:

  • 输入门:决定哪些新信息需要被存储。
  • 遗忘门:决定哪些旧信息需要被丢弃。
  • 输出门:决定当前的输出。
  • 细胞状态:代表长期记忆。

1. 输入门(Input Gate)

公式
i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)

解释

  • 这里的 (x_t) 可以看作当前的环境信息(如时间、天气等),而 (h_{t-1}) 是之前的状态(如之前的灯光设置)。
  • 输入门 (i_t) 决定了哪些新的环境信息需要被接纳并影响灯光设置。

2. 遗忘门(Forget Gate)

公式
f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)

解释

  • 遗忘门 (f_t) 决定了哪些旧的灯光设置需要被遗忘。比如,如果天气变晴,系统可能会决定忘记之前的昏暗设置。

3. 细胞状态(Cell State)

公式
C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C_t}

解释

  • 细胞状态 (C_t) 代表系统的长期记忆。它结合了之前的状态 (C_{t-1})(之前的灯光设置)和新的信息(当前环境的影响)。
  • (\tilde{C_t}) 是候选值,代表新的灯光设置。这个值通过某种方式计算得出,反映了当前环境的影响。

4. 输出门(Output Gate)

公式
o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)

解释

  • 输出门 (o_t) 决定了当前的灯光设置。它根据当前的状态和输入信息,控制实际的灯光开关。

5. 最终输出

公式
h_t = o_t \cdot \tanh(C_t)

解释

  • 最终的输出 (h_t) 代表当前的灯光设置。通过输出门的控制,结合细胞状态,系统决定了具体的灯光亮度和开关状态。

总结

灯光控制系统通过输入门、遗忘门、细胞状态和输出门的协调工作,动态调整灯光设置,正如LSTM在处理序列数据时,通过这些门控机制有效地管理信息和记忆。这种类比帮助我们更直观地理解LSTM在时间序列预测和其他任务中的应用。

问题

梯度消失和爆炸
  • 问题:在长序列中,梯度可能消失或爆炸,导致训练不稳定。
  • 解释:想象一个灯光控制系统,如果环境变化(如光照变化)过于剧烈,控制信号可能会失去效用(消失)或过于强烈(爆炸),导致灯光效果不稳定。
  • 解决方案
    • 梯度裁剪:在信号过强时限制控制信号的强度,保持灯光效果稳定。
    • 使用更深的网络:通过增加灯光控制系统的传感器层次,使其更准确地响应环境变化。
计算复杂度
  • 问题:LSTM的复杂结构导致计算量大,训练时间较长。
  • 解释:一个复杂的灯光控制系统需要多个传感器和控制单元,可能导致响应时间变慢。
  • 解决方案
    • 模型简化:减少传感器数量或控制单元,简化灯光控制逻辑。
    • 并行计算:利用多个控制单元同时处理信号,提高响应速度。
超参数调节
  • 问题:LSTM有许多超参数,调节困难且耗时。
  • ****解释:在灯光控制系统中,需调节多个参数(如亮度、色温、开关时间等),这需要大量实验来找到最佳设置。
  • 解决方案
    • 自动化调节:使用智能算法自动寻找最佳灯光设置,减少人工调节的时间。
    • 交叉验证:在不同环境下测试灯光设置,确保在各种情况下都能达到最佳效果。
长序列依赖问题
  • 问题:LSTM在捕捉远距离依赖关系方面可能表现不佳。
  • 解释:如果灯光控制系统只依赖最近的环境信息,可能无法有效应对长期变化(如季节变化)。
  • 解决方案
    • 层次化模型:通过分层控制系统,分别处理短期和长期的环境变化。
    • 注意力机制:引入智能算法,让灯光系统关注重要的环境变化,而不是仅仅依赖最近的信息。
过拟合
  • 问题:在小数据集上训练时,LSTM容易过拟合。
  • 解释:灯光控制系统在特定环境下表现良好,但在新的环境中可能无法适应。
  • 解决方案
    • 正则化:通过设置限制,确保灯光控制系统不会过于依赖于特定的环境输入。
    • 数据增强:模拟多种环境条件,增加训练数据的多样性,使系统更具适应性。
    • 提前停止:监控灯光控制系统在不同环境下的表现,及时调整设置以防止过拟合。

GRU Gated Recurrent Unit (2014)

GRU(Gated Recurrent Unit)是一种对 LSTM 稍微改进的循环神经网络,由 Cho 等人(2014年)提出。它将遗忘门和输入门合并成一个单一的“更新门”,同时将 cell state 和隐藏状态合并,并进行了其他一些改动。GRU模型相对于标准的 LSTM 模型来说更加简单,并且越来越受到广泛关注和应用

1. 结构复杂性

  • LSTM
    • 解释:想象一个复杂的灯光控制系统,包含多个传感器和控制单元。每个控制单元都有多个开关和调节器,以管理不同的灯光参数(如亮度、色温、开关状态等)。
    • 特点:LSTM有三个门(输入门、遗忘门和输出门),使其能够精确地控制信息的流动和保留。
  • GRU
    • 解释:相比之下,GRU就像一个更简化的灯光控制系统,只有两个主要控制单元(重置门和更新门)。这个系统仍然能够有效地调节灯光,但结构更简单。
    • 特点:GRU将输入门和遗忘门合并为更新门,简化了信息处理的流程。

2. 信息处理

  • LSTM
    • 解释:LSTM能够根据环境变化进行复杂的灯光调节,比如在不同的时间段(白天、夜晚)或不同的场景(聚会、安静时光)中,灵活调整灯光效果。
    • 特点:LSTM通过多个门的组合,能够更细致地控制信息的保留和遗忘。
  • GRU
    • 解释:GRU虽然简化了控制逻辑,但仍然能够根据环境变化调整灯光。例如,它可以在白天和夜晚之间快速切换灯光设置,但可能在复杂场景下的调节不如LSTM灵活。
    • 特点:GRU通过重置门和更新门的组合,能够有效处理信息,但在处理复杂依赖时可能不如LSTM细致。

3. 训练效率

  • LSTM
    • 解释:由于其复杂性,LSTM的灯光控制系统在调整时可能需要更多的时间和资源,尤其是在复杂场景下。
    • 特点:LSTM的训练和调节通常需要更多的计算资源和时间。
  • GRU
    • 解释:GRU的灯光控制系统由于结构简单,可以更快地响应环境变化,调节效率更高。
    • 特点:GRU通常训练速度更快,计算资源消耗较少,适合快速响应的应用。

4. 性能与适用场景

  • LSTM
    • 解释:在需要复杂调节和长时间依赖的场景(如智能家居系统中,灯光与其他设备的联动)中,LSTM表现更为出色。
    • 特点:适合处理长序列和复杂依赖关系的任务。
  • GRU
    • 解释:在需要快速响应和较少复杂性的场景中(如简单的定时开关灯光),GRU会更有效。
    • 特点:适合处理短序列或较少复杂性的任务。

总结

我们可以看到LSTM和GRU在结构复杂性、信息处理能力、训练效率和适用场景等方面的区别。LSTM适合需要复杂调节的场景,而GRU则在快速响应和简单调节方面表现更佳。这种对比有助于理解在不同任务中选择合适模型的重要性。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容