240 发简信
IP属地:浙江
  • 阿里云服务器建站步骤

    记录下自己在阿里云一站式建站的过程,重点会说明域名解析,ssl证书申请,备案等步骤。 一、域名购买和注册 购买域名的前提条件是要有一个实名认证的...

  • Resize,w 360,h 240
    从零开始编写Lora

    一、引言 LoRA,英文全称为Low-Rank Adaptation,是一种更有效地微调 LLMs 的流行技术。 LoRA 不调整深度神经网络的...

  • 【四】搞懂transformer中的数学

    一. 引言 本文开始,我们将进入到解码器(decoder)的学习。解码器的作用很明确,就是根据输入预测(或者说生成)下一个token。解码器接收...

  • 【三】搞懂transformer中的数学

    一. 引言 继续之前的分析,在本文中,我们会解释前馈层(FFN, Feed-forward layer) 二. 前馈层介绍 前馈层的公式比较简单...

  • 【二】搞懂transformer中的数学

    一. 引言 继续之前的分析,在本文中,我们会解释大名鼎鼎鼎self-attention机制 二. Self-attention 说到自注意力(s...

  • Resize,w 360,h 240
    【一】搞懂transformer中的数学

    一. 引言 大家都知道AI本质就是计算概率然后返回一个最大概率的结果。但是很好奇这里面的计算逻辑具体是如何,以及后续到底哪些因素会影响到训练结果...

  • Resize,w 360,h 240
    Sora学习笔记-Patches

    本文是Datawhale打卡笔记 Patch的来源 在sora出现之前,Patch这个概念就已经被用于训练图片了(Vit,来自于google20...