SSE与AVX指令集加速

SSE与AVX指令集

SSE指令集是英特尔提供的基于SIMD（单指令多数据，也就是说同一时间内，对多个不同的数据执行同一条命令）的硬件加速指令，通过使用寄存器来进行并行加速。经过几代的迭代，最新的SSE4已经极大地扩展了指令集的功能，并且随后已经从128位寄存器继续扩展到256位的指令。

想要使用SSE或AVX指令集，需要包含以下头文件

#include <mmintrin.h>   //mmx, 4个64位寄存器
#include <xmmintrin.h>  //sse, 8个128位寄存器
#include <emmintrin.h>  //sse2, 8个128位寄存器
#include <pmmintrin.h>  //sse3, 8个128位寄存器
#include <smmintrin.h>  //sse4.1, 8个128位寄存器
#include <nmmintrin.h>  //sse4.2, 8个128位寄存器
#include <immintrin.h>  // avx, 16个256位寄存器

1. intrinsics

intrinsic是将xmm、sse等指令封装，变成内联函数以减少函数调用的一种操作，具体语法如下：

#pragma intrinsic(function_name)

intrinsic只允许内联诸如标准库函数或部分函数，是通过内联底层标准函数而减小开销的，不是所有函数都能使用。而指令集SSE、AVX等属于封装好的标准内联函数，导入头文件之后可直接使用。

2. SSE指令集

完整的SSE指令集可以点击此处查看。

我们主要关注SSE指令集在C和C++上的应用。在工程中，对于128位的寄存器，最实用的操作就是当做4个32位单精度的浮点数。其中，包装指令集是指矢量指令集，单个指令会对VALU中的数据都进行同一指令操作；而标量指令是指指令只对寄存器最低位的数据进行操作。

SSE架构

以下是常用的函数。

编译语句
```
g++ -msse4 filename.cpp
```

编程实例

对于多核处理器，每一个核都有着自己的缓存，以及FPU、VALU模块。VALU允许同时操作4个浮点数，通过SSE指令集加速一个128位矢量的FDTD程序。

相加的简例

/* 对于变量v1与v2各有x、y、z、w四个属性，vec_res的结果便是v1、v2对应的属性相加 */

// 标量版本
vec_res.x = v1.x + v2.x;
vec_res.y = v1.y + v2.y;
vec_res.z = v1.z + v2.z;
vec_res.w = v1.w + v2.w;

// VALU版本
movaps xmm0, [v1];                    // 将要移动v1变量到xmm0寄存器中
xmm0 = v1.w | v1.z | v1.y | v1.x ;    // 将4个值加载到寄存器中
addps xmm0, [v2];                     // 将要对xmm0和v2变量进行相加
xmm0 = v1.w + v2.w | v1.z + v2.z | v1.y + v2.y | v1.x + v2.x ;  // 相加
movaps [vec_res], xmm0;               // 将寄存器的值赋给vec_res

C++矢量相乘简例

注意：在编译时必须使用g++编译器，同时，SSE指令集有SSE、SSE2、SSE3、SSE4几种，越新的版本功能就越多，可以通过在使用g++编译链接时，加上-msse4使用SSE4指令集，其他以此类推。

/* 使用SSE指令进行矢量相乘加速 */

#include<iostream>
// 使用SSE指令集需要的头文件
#include<xmmintrin.h>
using namespace std;

int main()
{
    // VALU加速版本: 0m0.004s
    __m128 a, b;

    a = _mm_set_ps(1, 2, 3, 4);
    b = _mm_set_ps(1, 2, 3, 4);

    __m128 c = _mm_add_ps(a, b);
    
    for(int i=0; i<4; i++)
    {
        cout << a[i] << endl;
    }
    
    return 0;
}

3. 扩展后的AVX指令集

新增特性
- 将 128 位 SIMD 寄存器扩展至 256 位。
- 添加了 3 操作数非破坏性运算。之前在 A = A + B 类运算中执行的是 2 操作数指令，它将覆盖源操作数，而新的操作数可以执行 A = B + C 类运算，且保持原始源操作数不变。
需要启用AVX指令时，编译必须加上 -mvax，否则会报错。头文件中包含的所有函数在此处可以查看。

编译语句：
```
g++ -mavx filename.cpp
```

YMM寄存区

相比于早年128位的XMM寄存器，英特尔AVX提供了256位的YMM寄存器，而XMM被视作了相应的底层部分。

YMM寄存器

对齐

当源数据是关于n位对齐（也就是能完整地以n为一个单位切分）地存入YMM寄存器中，称之为数据对齐。对于SSE运算来说，默认必须保证数据对齐（虽不必须，但最好保证，某些操作并不提供非对齐的操作版本）。

尽量不要VEX与XMM指令混用

混合使用旧的仅 XMM 的指令和较新的AVX 指令会导致延迟，所以不要将 VEX 前缀的指令和非 VEX 前缀的指令混合使用，以实现最佳吞吐量。

相加的例子

#include<iostream>
#include<immintrin.h>   // avx
using namespace std;

int main()
{
    __m256 a, b;
    
    /*
    Note:
    随着位数的变化，寄存器可以存放的同一类型数据的个数也发生了翻倍，
    在128位的SSE中，_mm_set_ps()可以计算4个float型数据，而到了
    256位的AVX中，_mm256_set_ps()可以计算8个float型数据。
    */
    
    a =  _mm256_set_ps(1, 2, 3, 4, 5, 6, 7, 8);
    b =  _mm256_set_ps(1, 2, 3, 4, 5, 6, 7, 8);

    __m256 c = _mm256_add_ps(a, b);

    for(int i=0; i<8; i++)
    {
        cout << c[i] << endl;
    }

    return 0;
}

最后编辑于：2021.08.12 16:30:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,313评论 6赞 496
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,369评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,916评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,333评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,425评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,481评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,491评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,268评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,719评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,004评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,179评论 1赞 342
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,832评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,510评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,153评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,402评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,045评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,071评论 2赞 352

SSE与AVX指令集加速

SSE与AVX指令集

1. intrinsics

2. SSE指令集

3. 扩展后的AVX指令集

推荐阅读更多精彩内容