搭建CUDA 环境(GPU)

1 Preface

最近拿到一篇论文,老板需要按照论文的思路,通过提取股票行情的特征,从而预测未来几分钟内股票的价格变动。在这之前已经用python 的 scikit 库实现过了。计算完全市场3000只股票大概需要1小时(10 thread)。Boss想能不能1min能就算完全市场的?所以 CTO 就建议使用GPU来加速计算。
  下面我们就来讲讲怎么搭建GPU的环境。(如有不正确的地方,请不吝指正)

1.1 首先确认配置的 Nvidia 显卡型号

nvida

官网查看CUDA兼容的GPU型号cuda-gpu (20170612)

nvida

CUDA Toolkit on x86_32 is unsupported

2 CUDA 环境搭建

2.1 Download

nvidia cuda-toolkit
下载对应的开发包,安装的时候选择自定义安装,然后下一步、下一步即可。

sdk

2.2 检查是否成功安装

安装完成后,检查是否成功安装。
(1) cmd 中输入 nvcc -V, 查看 nvcc 版本。
(2) 执行 deviceQuery.exe 可以查看显卡设备:

λ deviceQuery
deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

Detected 1 CUDA Capable device(s)

Device 0: "NVS 510"
  CUDA Driver Version / Runtime Version          8.0 / 8.0
  CUDA Capability Major/Minor version number:    3.0
  Total amount of global memory:                 2048 MBytes (2147483648 bytes)
  ( 1) Multiprocessors, (192) CUDA Cores/MP:     192 CUDA Cores
  GPU Max Clock rate:                            797 MHz (0.80 GHz)
  Memory Clock rate:                             891 Mhz
  Memory Bus Width:                              128-bit
  L2 Cache Size:                                 262144 bytes
  Maximum Texture Dimension Size (x,y,z)         1D=(65536), 2D=(65536, 65536), 3D=(4096, 4096, 4096)
  Maximum Layered 1D Texture Size, (num) layers  1D=(16384), 2048 layers
  Maximum Layered 2D Texture Size, (num) layers  2D=(16384, 16384), 2048 layers
  Total amount of constant memory:               65536 bytes
  Total amount of shared memory per block:       49152 bytes
  Total number of registers available per block: 65536
  Warp size:                                     32
  Maximum number of threads per multiprocessor:  2048
  Maximum number of threads per block:           1024
  Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
  Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)
  Maximum memory pitch:                          2147483647 bytes
  Texture alignment:                             512 bytes
  Concurrent copy and kernel execution:          Yes with 1 copy engine(s)
  Run time limit on kernels:                     Yes
  Integrated GPU sharing Host Memory:            No
  Support host page-locked memory mapping:       Yes
  Alignment requirement for Surfaces:            Yes
  Device has ECC support:                        Disabled
  CUDA Device Driver Mode (TCC or WDDM):         WDDM (Windows Display Driver Model)
  Device supports Unified Addressing (UVA):      Yes
  Device PCI Domain ID / Bus ID / location ID:   0 / 3 / 0

(3)执行 bandwidthTest.exe,看到 Result - Pass

λ bandwidthTest
[CUDA Bandwidth Test] - Starting...
Running on...

 Device 0: NVS 510
 Quick Mode

 Host to Device Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                     5861.3

 Device to Host Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                     6536.8

 Device to Device Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)        Bandwidth(MB/s)
   33554432                     20376.2

Result = PASS

3 Data Interaction

3.1 CPU 和 GPU 之间的如何进行数据交互?

CPU 和 GPU 有各自独立的内存空间,在 GPU 中不能直接访问 CPU 端的代码,反之也一样。
这时候最直接的方式就是数据拷贝: 在计算前将数据从 CPU 复制到 GPU 端,以 GPU 内存指针的方式传递给 GPU 的内存空间进行读写操作,计算完后将计算结果复制回 CPU 端。下面我们看下一个Sample Project 的代码 bandwidthTest
函数功能:测试device to device (or device <==> host)拷贝数据的带宽。

(1) 动态申请连续的内存块
/**char *d_idata: device input data
 * char *h_odata: host output data
 */
  // Host 上动态申请内存
  cudaError_t cudaHostAlloc((void **)&h_odata, memSize, bWriteCombined);
  // device 上动态申请内存
  cudaError_t cudaMalloc((void **) &d_idata, memSize);
(2) 数据拷贝( host <==> device)
  // sync CopyData from Device to Host 
  cudaError_t cudaMemcpy(void *dst, const void *src,size_t memSize, cudaMemcpyDeviceToHost);
  // async CopyData from Host to Device (line 791)
  cudaError_t cudaMemcpyAsync(void *dst, const void *src,size_t memSize, cudaMemcpyHostToDevice, 0);

数据从device 拷贝回 host 是一个同步数据拷贝。

(3) 释放内存
  //释放 host 上的内存
  cudaError_t cudaFreeHost(h_odata);
  //释放 device 上的内存
  cudaError_t cudaFree(d_idata);

注:(1) 每个函数都需用宏 checkCudaErrors() 来检查返回值。
(2) 有3个宏:HOST_TO_DEVICEDEVICE_TO_HOSTDEVICE_TO_DEVICE

4 CUDA-Demos

下面来看个简单的 GPU 计算向量加法的例子。

4.1 Vector Add

CUDA Kernel function: 这段代码只能在GPU上执行,不能在CPU上执行。
下面来看一个内核函数的例子:

/* CUDA Kernel Device code
*/
__global__ void vectorAdd(const float *A, const float *B, float *C, int numElements)
{
    /* build-in variable
     *  blockDim 每个线程块需要启动的线程总数
     *  blockIdx 线程块编号,从0开始编号
     *  threadIdx  线程ID,每个线程块内从0开始编号
     */
    int i = blockDim.x * blockIdx.x + threadIdx.x;

    if (i < numElements) //防止数组越界!!!
    {
        C[i] = A[i] + B[i];
    }
}

其中 __global__ 告诉编译器生成的是GPU代码而不是 CPU 代码,并且这段代码在 CPU 上是全局可见的。

如何在 CPU 端调用内核函数?
CUDA 专门定义了一个 C 语言扩展用以调用内核函数。语法如下:
kernel_function<<< num_blocks, num_threads>>>(params, param2, ...)

// Launch the Vector Add CUDA Kernel
    int threadsPerBlock = 256;
    int blocksPerGrid =(numElements + threadsPerBlock - 1) / threadsPerBlock;
   
    vectorAdd<<<blocksPerGrid, threadsPerBlock>>>(d_A, d_B, d_C, numElements);

    err = cudaGetLastError();

其中:num_blocks 告诉 GPU 启动线程块的数量;
num_threads 表示单个 Block 内启动的线程数。

线程块

向量的减法、乘法类似

4.2 Matrix Calculation

next post write

5 CPU 的多线程与 GPU 的对应关系

  • CPU 单线程 / GPU 多线程
  • CPU 多线程 / GPU 多线程 (注意内存的使用)

GPU 是典型的 SPMD (即单指令多数据模型)。

Reference

[1] Nvidia 开发者文档
[2] vs2013下编写你的第一个CUDA程序 简单的方式:可以直接新建 CUDA 8.0 的project
[3] CUDA并行程序设计:GPU编程指南· Shane Cook 著
[4] GeForce GTX 280 GPU

名词解释:
SM: Streaming Multiprocessor 流处理簇
SP: Stream Processor 流处理器
DRAM: 缓存

@Author: sunquan
@DateTime 2017-06-12 T10:24:33+0800
@email: sunquana@gmail.com
Copyright@2017

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,635评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,543评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,083评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,640评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,640评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,262评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,833评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,736评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,280评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,369评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,503评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,185评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,870评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,340评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,460评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,909评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,512评论 2 359

推荐阅读更多精彩内容

  • CUDA从入门到精通(零):写在前面 本文原版链接: 在老板的要求下,本博主从2012年上高性能计算课程开始接触C...
    Pitfalls阅读 3,620评论 1 3
  • 1. CPU vs. GPU 1.1 四种计算机模型 GPU设计的初衷就是为了减轻CPU计算的负载,将一部分图形计...
    王侦阅读 20,921评论 3 20
  • [TOC] 环境搭建与CUDA概述 Deepin15.4 CUDA环境搭建 CPU:i5 7300HQ 显卡:gt...
    hyfine阅读 741评论 0 0
  • CUDA是一种新的操作GPU计算的硬件和软件架构,它将GPU视作一个数据并行计算设备,而且无需把这些计算映射到图形...
    ai领域阅读 9,120评论 0 8
  • 人有悲欢离合,月有阴晴圆缺,此事古难全――这句名言早已是家喻户晓了,苏大才子把人类的悲欢离合和月亮的阴晴圆缺联系起...
    陶语阅读 1,379评论 21 16