240 发简信
IP属地:上海
  • 利用CUDA并行加速卷积运算(基础版本)

    本文面向有一定编程基础的开发者,系统介绍卷积运算的数学原理以及如何用 CUDA 编写高效的 GPU 并行卷积核函数。 一、卷积运算是什么? 卷积...

  • # 从DRAM原理到CUDA内存合并:为什么你的GPU程序跑不快?

    在GPU编程中,我们常常会遇到一个令人困惑的现象:明明GPU拥有成百上千个计算核心,理论算力远超CPU,但实际运行时却常常跑不满,甚至比CPU还...

  • Resize,w 360,h 240
    2026-04-10

    使用共享内存和分块矩阵优化矩阵乘法 一、朴素矩阵乘法实现 线程分工 CUDA 矩阵乘法中,一个线程只负责计算并输出结果矩阵 P 的一个元素。这条...

  • CUDA 性能优化:从延迟隐藏到 SM 占用率

    本文将从 GPU 最核心的 SIMT 执行模型出发,层层拆解 Grid/Block 配置、Warp 调度与 SM 占用率的深层关系,最终落地到内...

  • CUDA线程与线程束执行解析

    在CUDA异构并行编程的学习中,容易陷入「只关注代码逻辑,忽略底层硬件执行规则」的误区,导致写出的核函数要么结果错误,要么性能远低于预期。本文将...

  • Resize,w 360,h 240
    CUDA核心与线程束(Warp)执行解析

    在CUDA异构并行计算学习中,本文围绕“单个CUDA核心能否执行多个线程”的核心提问,延伸出线程束(warp)拆分、执行模型、SM处理块分组及硬...

  • Resize,w 360,h 240
    CUDA并行计算:从GPU硬件架构到线程调度与透明可扩展性

    本文基于CUDA异构并行计算的核心底层逻辑,从程序员视角的GPU硬件架构出发,完整梳理「线程块调度规则→屏障同步机制→架构核心优势」的知识体系。...

    0.3 27 0 1
  • CUDA并行计算实战:从图像模糊到矩阵乘法

    CUDA并行计算实战:从图像模糊到矩阵乘法 本文基于CUDA异构并行计算的两个经典入门场景——图像模糊与矩阵乘法,从底层原理、线程映射、核函数实...

    0.3 43 0 2
  • Resize,w 360,h 240
    CUDA二维图像处理:从线程配置、坐标映射到边界处理

    图像处理是CUDA并行计算最经典的落地场景之一,数字图像天然的「行-列二维结构」,与CUDA的二维线程模型高度契合。本文将从实战角度,完整拆解二...

个人介绍
吾不识青天高,黄地厚,唯见月寒日暖,来煎人寿。