240 发简信
IP属地:浙江
  • 阿里云服务器建站步骤

    记录下自己在阿里云一站式建站的过程,重点会说明域名解析,ssl证书申请,备案等步骤。 一、域名购买和注册 购买域名的前提条件是要有一个实名认证的信息模板,即在您注册域名之前,...

  • 120
    从零开始编写Lora

    一、引言 LoRA,英文全称为Low-Rank Adaptation,是一种更有效地微调 LLMs 的流行技术。 LoRA 不调整深度神经网络的所有参数,而是专注于仅更新一小...

  • 【四】搞懂transformer中的数学

    一. 引言 本文开始,我们将进入到解码器(decoder)的学习。解码器的作用很明确,就是根据输入预测(或者说生成)下一个token。解码器接收两个输入:编码器的输出和生成内...

  • 【三】搞懂transformer中的数学

    一. 引言 继续之前的分析,在本文中,我们会解释前馈层(FFN, Feed-forward layer) 二. 前馈层介绍 前馈层的公式比较简单 我们逐步讲解下这个公式(其中...

  • 【二】搞懂transformer中的数学

    一. 引言 继续之前的分析,在本文中,我们会解释大名鼎鼎鼎self-attention机制 二. Self-attention 说到自注意力(self-attention),...

  • 120
    【一】搞懂transformer中的数学

    一. 引言 大家都知道AI本质就是计算概率然后返回一个最大概率的结果。但是很好奇这里面的计算逻辑具体是如何,以及后续到底哪些因素会影响到训练结果和推断,有必要理解transf...

  • 120
    Sora学习笔记-Patches

    本文是Datawhale打卡笔记 Patch的来源 在sora出现之前,Patch这个概念就已经被用于训练图片了(Vit,来自于google2021的论文,《An Image...