此间不留白 - 简书

IP属地：上海

利用CUDA并行加速卷积运算（基础版本）
本文面向有一定编程基础的开发者，系统介绍卷积运算的数学原理以及如何用 CUDA 编写高效的 GPU 并行卷积核函数。一、卷积运算是什么？卷积...

11 0 1
# 从DRAM原理到CUDA内存合并：为什么你的GPU程序跑不快？
在GPU编程中，我们常常会遇到一个令人困惑的现象：明明GPU拥有成百上千个计算核心，理论算力远超CPU，但实际运行时却常常跑不满，甚至比CPU还...

32 0 0

2026-04-10
使用共享内存和分块矩阵优化矩阵乘法一、朴素矩阵乘法实现线程分工 CUDA 矩阵乘法中，一个线程只负责计算并输出结果矩阵 P 的一个元素。这条...

37 0 0
CUDA 性能优化：从延迟隐藏到 SM 占用率
本文将从 GPU 最核心的 SIMT 执行模型出发，层层拆解 Grid/Block 配置、Warp 调度与 SM 占用率的深层关系，最终落地到内...

75 0 0
CUDA线程与线程束执行解析
在CUDA异构并行编程的学习中，容易陷入「只关注代码逻辑，忽略底层硬件执行规则」的误区，导致写出的核函数要么结果错误，要么性能远低于预期。本文将...

16 0 0
CUDA核心与线程束（Warp）执行解析
在CUDA异构并行计算学习中，本文围绕“单个CUDA核心能否执行多个线程”的核心提问，延伸出线程束（warp）拆分、执行模型、SM处理块分组及硬...

46 0 0
CUDA并行计算：从GPU硬件架构到线程调度与透明可扩展性
本文基于CUDA异构并行计算的核心底层逻辑，从程序员视角的GPU硬件架构出发，完整梳理「线程块调度规则→屏障同步机制→架构核心优势」的知识体系。...

0.3 28 0 1

CUDA并行计算实战：从图像模糊到矩阵乘法
CUDA并行计算实战：从图像模糊到矩阵乘法本文基于CUDA异构并行计算的两个经典入门场景——图像模糊与矩阵乘法，从底层原理、线程映射、核函数实...

0.3 45 0 2
CUDA二维图像处理：从线程配置、坐标映射到边界处理
图像处理是CUDA并行计算最经典的落地场景之一，数字图像天然的「行-列二维结构」，与CUDA的二维线程模型高度契合。本文将从实战角度，完整拆解二...

35 0 0