Full Stack Optimization of Transformer Inference: a Survey

摘要

  1. 分析和研究现有transformer架构中的瓶颈及其与以往卷积模型的异同;
  2. transformer架构对硬件的影响,包括非线性操作、Softmax、GELU,以及线性操作对硬件设计的影响;
  3. 优化固定transformer架构的方法;
  4. 为transformer模型找到正确的映射和调度操作的挑战;
  5. 通过使用神经体系结构搜索来调整架构来优化transformer模型的方法。

Introduction

transformer 与CNN的区别

  1. 与传统的cnn聚焦设计相比,transformer 主要由矩阵乘法(矩阵模数)和内存密集型的非线性操作组成。
  2. transformer 模型的计算图和数据流比cnn更复杂,有更多的操作节点,更多的数据流分割和连接。

本文贡献

  1. 分析transformer 的运行时特性,并探讨不同的高效transformer 推理方法;
  2. 将所调查的方法应用于全堆栈深度神经网络(DNN)加速器发生器Gemmini 上进行案例研究。

这项工作的长期目标是描述跨硬件和软件堆栈的不同因素,以优化transformer 推断。

Transformer 结构和瓶颈

多头注意力

[图片上传失败...(image-ebe0e9-1681201013747)]

一个MHA模块由6个线性操作组成,其中4个是相同的权重到激活矩阵(projections)(即𝑊𝑄、𝑊𝐾、𝑊𝑉、𝑊out投影),其余两个是激活到激活((act-to-act)矩阵(query × key and attention score × value)。这两种矩阵乘法有不同的行为。

FFN

[图片上传失败...(image-3053f7-1681201013747)]

FFN模块是一个由两个线性层组成的相对简单的块。输入序列首先通过权重矩阵𝑊1的第一个线性层从隐藏维𝑑投影到更高的FFN维𝑑_{FFN}。随后,投影序列通过权重矩阵𝑊2的第二线性层投影序列投影回原始维数𝑑。一般来说,尺寸𝑑_{FFN}比𝑑大4×,导致𝑊1和𝑊2的纵横率为4:1(例如,在BERT-Base中)。在这两个线性层之间是一个非线性层。

Encoder

Decoder

Model analysis

在短序列中,FLOPs和MOPs主要由MHA和FFN投影计算贡献;对于长序列,act-to-act矩阵乘法贡献了更多的FLOPs占比,softmax贡献了更多的MOPs占比。

Softmax operation

  1. 指数操作

指数部分容易数值溢出,通常使用减法的技巧

  1. 序列的长度方向进行求和
  2. 通过除总和进行归一化
    Softmax(x_i) =\frac{e^{x_i} }{\sum_je^{x_j}}

LayerNorm

  1. 计算均值
  2. 计算标准差
  3. 计算标准化
    p_{out} = \frac{p_{in}-u_t}{\delta_t}*\gamma_e + \beta_e
    非线性算子最大的挑战在于算子融合,LayerNorm 需要实时计算均值和标准差,为了将此操作与前面的matmul操作融合,在写入结果之前,必须在计算均值和方差的维度上累积整个输出矩阵。这导致了不规则的平铺尺寸和较低的数据重用。因此,在将这些操作与之前的层融合与使用更好的平铺维度来最大化重用之间存在一个重要的权衡。第五部分介绍这个平衡方式。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容