12
0
写了 37225 字,被 2 人关注,获得了 2 个喜欢
转载自| 新智元 【导读】换个优化器,计算量少一半。 自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。...
写了 326072 字,被 267 人关注,获得了 652 个喜欢
关键词:LLaMA,Transformer,GLU,SwiGLU 前言 SwiGLU激活函数在PaLM,LLaMA等大模型中有广泛应用,在大部分测评中相较于Transform...
写了 764 字,被 56189 人关注,获得了 371 个喜欢
写了 644351 字,被 70458 人关注,获得了 134402 个喜欢
写了 947499 字,被 50248 人关注,获得了 94254 个喜欢
写了 2001226 字,被 72880 人关注,获得了 232398 个喜欢
写了 412887 字,被 68132 人关注,获得了 116895 个喜欢
写了 4578593 字,被 56629 人关注,获得了 107232 个喜欢
写了 4107107 字,被 121411 人关注,获得了 5176 个喜欢
写了 2571231 字,被 70349 人关注,获得了 176427 个喜欢
写了 0 字,被 120795 人关注,获得了 11953 个喜欢
写了 0 字,被 643154 人关注,获得了 74460 个喜欢