Transformer的position encoding的理解和启发

2023-03-01

计算机处理数据，肯定希望处理有上下界的，否则很容易越界。如何把一个几乎无上界的数，比如transformer的训练数据的长度，可能是3，4，也可能是100，1000或者10000等，当然实际上不会太大，但只要数据的上界变化比较大，处理起来就比较棘手。但Transformer在position encoding中，巧妙的利用了三角函数的值域在[-1,1]之间，而定义域则比较方便缩放在一个周期内的特性。另外，其实还用到了实数和（0，1）等势的性质。

具体实现中，Transformer的position encoding把一个标量整数的位置数据转化为一个多维实数。Positional Encoding和embedding具有同样的维度d_model。例如d-model取为512，则一个token的位置编码就是一个512个元素的向量，其偶数、奇数位置的元素分别为sin和cos。sin和cos的自变量为pos/(10000^(2i/d_model)), pos/(10000^((2i+1)/d_model)), i的取值范围为[0, d_model /2)，对于长度为L的句子，pos取值为0，1，2，……，L-1。 10000的这个值，一般来说就意味着可以训练长度为10000以内的句子。而且10000^(1/512)=1.018比较接近1.

这样，可以达到两个目的

1.每个位置有一个唯一的positional encoding.

2.两个位置之间的关系可以通过他们位置编码间的仿射变换来建模（获得）

对于1，因为Transformer是多个token并行进行训练，如果没有 Position embedding 的化，Transformer 模型并不能捕捉序列的顺序，交换单词位置后 attention map 的对应位置数值也会进行交换，并不会产生数值变化，即没有词序信息。所以要把每个token的位置信息嵌入到attention map中。Transformer 采用一对三角函数sin、cos，避免了训练得到的位置向量长度固定的尴尬，提供了相对位置信息，使得训练的模型演绎能力更强。而且sin、cos这样的组合，可以达到同一维度的位置向量之间不但可以表示不同位置，且含有相对位置信息。参考资料2对为什么把词向量E和位置向量相加而不是拼接，进行了探讨，因为相加不增加维度，训练更容易，而且从计算结果看，相加不必拼接差。

第2个目的是如何实现的呢？可以这样理解，先看三角函数和差化积公式：

$sin(\alpha+\beta)=sin\alpha cos\beta + cos\alpha sin\beta$

$cos((\alpha+\beta)=cos \alpha cos\beta - sin\alpha sin\beta$

而原文[1]的位置编码公式为：

$\begin{equation} PE(pos, 2i)=sin(pos/10000^{2i/d_{model}})\\PE(pos, 2i+1)=c os(pos/10000^{2i/d_{model}})\end{equation}$

根据上面的公式，可以得到：

$PE(pos+k, 2i) =PE(pos, 2i)\times PE(k, 2i+1)+PE(pos, 2i+1)\times PE(k, 2i)$

$PE(pos+k, 2i+1) =PE(pos, 2i+1)\times PE(k, 2i+1)-PE(pos, 2i)\times PE(k, 2i)$

即：

pos+k位置的位置向量可以表示为pos位置和k位置的位置向量的线性组合.It is great。

需要说明的是，其实也不一定奇偶位置非得分别使用sin和cos，及时直接前半部分sin，后半部分用cos也可以达到同样的训练效果。因为在 Multi-Head Attention 模块时的第一步—— Linear 层的线性转换，也就是所谓的全连接层进行坐标重排。

经过位置编码后，encoder和decoder的输入层中，使用的最终的输入为

input = input_embedding + positional_encoding

这里的input_embedding 就是常规embedding层，将每一个token的向量维度从vocab_size映射到d_model，论文中取512.

1，2017年的Attention is All You Need https://arxiv.org/pdf/1706.03762.pdf

2，Positional Encoding在OpenNMT中的实现代码：https://github.com/OpenNMT/OpenNMT-py/blob/668c3ef362995c55633fde592354160fec1d1efd/onmt/modules/embeddings.py

3，https://www.zhihu.com/question/347678607

4，The Annotated Transformer http://nlp.seas.harvard.edu/2018/04/03/attention.html

5, BERT为何使用学习的position embedding而非正弦position encoding? https://www.zhihu.com/question/307293465

6. Transformer Text Embeddings https://www.baeldung.com/cs/transformer-text-embeddings

最后编辑于：2023.03.09 18:29:08

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,826评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,968评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,234评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,562评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,611评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,482评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,271评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,166评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,608评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,814评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,926评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,644评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,249评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,866评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,991评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,063评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,871评论 2赞 354

Transformer的position encoding的理解和启发

推荐阅读更多精彩内容