12
0
写了 37225 字,被 2 人关注,获得了 2 个喜欢
转载自| 新智元 【导读】换个优化器,计算量少一半。 自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。...
写了 323859 字,被 267 人关注,获得了 651 个喜欢
关键词:LLaMA,Transformer,GLU,SwiGLU 前言 SwiGLU激活函数在PaLM,LLaMA等大模型中有广泛应用,在大部分测评中相较于Transform...
写了 764 字,被 56190 人关注,获得了 371 个喜欢
写了 642966 字,被 70455 人关注,获得了 133927 个喜欢
写了 945916 字,被 50244 人关注,获得了 94185 个喜欢
写了 1998589 字,被 72880 人关注,获得了 232211 个喜欢
写了 407252 字,被 68130 人关注,获得了 116607 个喜欢
写了 4564149 字,被 56627 人关注,获得了 106892 个喜欢
写了 4104180 字,被 121412 人关注,获得了 5172 个喜欢
写了 2567944 字,被 70350 人关注,获得了 176188 个喜欢
写了 0 字,被 120796 人关注,获得了 11953 个喜欢
写了 0 字,被 643157 人关注,获得了 74474 个喜欢