12
0
写了 37225 字,被 2 人关注,获得了 2 个喜欢
转载自| 新智元 【导读】换个优化器,计算量少一半。 自Google提出Vision Transformer(ViT)以来,ViT渐渐成为许多视觉任务的默认backbone。...
写了 344118 字,被 267 人关注,获得了 667 个喜欢
关键词:LLaMA,Transformer,GLU,SwiGLU 前言 SwiGLU激活函数在PaLM,LLaMA等大模型中有广泛应用,在大部分测评中相较于Transform...
写了 764 字,被 56188 人关注,获得了 371 个喜欢
写了 652006 字,被 70390 人关注,获得了 137405 个喜欢
写了 953091 字,被 50252 人关注,获得了 94281 个喜欢
写了 2023740 字,被 72882 人关注,获得了 233547 个喜欢
写了 443685 字,被 68148 人关注,获得了 119090 个喜欢
写了 4720895 字,被 56635 人关注,获得了 109039 个喜欢
写了 4121600 字,被 121410 人关注,获得了 5204 个喜欢
写了 2594177 字,被 70355 人关注,获得了 178137 个喜欢
写了 0 字,被 120792 人关注,获得了 11952 个喜欢
写了 0 字,被 643144 人关注,获得了 74460 个喜欢