作为专门为科学计算设计的编程语言,Julia 在分布式、GPU 甚至 TPU 计算方面提供了许多丰富易用的特性。我们首先来尝试一下在 Julia 中如何进行 GPU 并行计算。
安装一些 Julia 的 CUDA GPU 计算包
using Pkg
Pkg.add("CuArrays")
Pkg.add("CUDAdrv")
Pkg.add("CUDAnative")
Pkg.add("GPUArrays")
Pkg.test("CUDAnative")
[ Info: Testing using device GeForce GTX 960M
Test Summary: | Pass Total
CUDAnative | 253 253
Testing CUDAnative tests passed
首先电脑上必须安装了 CUDA 驱动。
GPUArrays 是为 Julia GPU 计算提供基础,它实现了一个专门用于高度并行硬件的抽象数组。它包含了设置 GPU、启动 Julia GPU 函数、提供一些基本数组算法等所有必要功能。
抽象意味着它需要以 CuArrays 和 CLArrays 的形式实现。在 nvidia gpu 环境下使用 CuArrays。CuArrays 是基于 CUDAdrv 和 CUDAnative 的,它是 GPUArrays 的具体实现,相比 CUDAnative 有助于减少代码重复,因为它允许编写独立于硬件的 GPU 内核,这些内核可以通过 CuArrays 或 CLArrays 编译到本地的 GPU 代码。
比较 GPU 计算与 CPU 计算的速度
using CUDAdrv
using CuArrays: CuArray
println(CUDAdrv.name(CuDevice(0)))
for Typ in (CuArray, Array)
x = Typ(ones(Float32, 5000000))
y = Typ(zeros(Float32, 5000000))
t = @elapsed begin
for i in 0:100
for j in 0:100
y .= x .* 3.2
GPUArrays.synchronize(y)
end
end
end
if y isa CuArray
println("GPU time: ", t)
else
println("CPU time: ", t)
end
end
代码分别在 GPU 和 CPU 上遍历数组进行计算,注意这里的 GPUArrays.synchronize(y)
,类似这样的代码在并行计算中很常见,目的是等待所有 GPU 核完成计算达到同步的效果,最终结果为:
GeForce GTX 960M
GPU time: 10.947028445
CPU time: 33.612801334
可以看到 GPU 的运算速度明显比 CPU 快,并且这种优势在数据量更大是更加明显,可以稳定地将速度提高 60-80 倍。
坑
我第一次是在安装 CuArrays 之前安装的 CUDAdrv 和 CUDAnative,这样会报错:Unsatisfiable requirements detected for package
解决方案是卸载 CUDAdrv 和 CUDAnative,先安装 CuArrays 再安装 CUDAdrv 和 CUDAnative。参考 github issue:https://github.com/JuliaGPU/CuArrays.jl/issues/232
参考资料:
https://nextjournal.com/sdanisch/julia-gpu-programming
https://julialang.org/blog/2017/03/cudanative