240 发简信
IP属地:上海
  • Resize,w 360,h 240
    2026-04-10

    使用共享内存和分块矩阵优化矩阵乘法 一、朴素矩阵乘法实现 线程分工 CUDA 矩阵乘法中,一个线程只负责计算并输出结果矩阵 P 的一个元素。这条...

  • CUDA 性能优化:从延迟隐藏到 SM 占用率

    本文将从 GPU 最核心的 SIMT 执行模型出发,层层拆解 Grid/Block 配置、Warp 调度与 SM 占用率的深层关系,最终落地到内...

  • CUDA线程与线程束执行解析

    在CUDA异构并行编程的学习中,容易陷入「只关注代码逻辑,忽略底层硬件执行规则」的误区,导致写出的核函数要么结果错误,要么性能远低于预期。本文将...

  • Resize,w 360,h 240
    CUDA核心与线程束(Warp)执行解析

    在CUDA异构并行计算学习中,本文围绕“单个CUDA核心能否执行多个线程”的核心提问,延伸出线程束(warp)拆分、执行模型、SM处理块分组及硬...

  • Resize,w 360,h 240
    CUDA并行计算:从GPU硬件架构到线程调度与透明可扩展性

    本文基于CUDA异构并行计算的核心底层逻辑,从程序员视角的GPU硬件架构出发,完整梳理「线程块调度规则→屏障同步机制→架构核心优势」的知识体系。...

    0.3 27 0 1
  • CUDA并行计算实战:从图像模糊到矩阵乘法

    CUDA并行计算实战:从图像模糊到矩阵乘法 本文基于CUDA异构并行计算的两个经典入门场景——图像模糊与矩阵乘法,从底层原理、线程映射、核函数实...

    0.3 41 0 2
  • Resize,w 360,h 240
    CUDA二维图像处理:从线程配置、坐标映射到边界处理

    图像处理是CUDA并行计算最经典的落地场景之一,数字图像天然的「行-列二维结构」,与CUDA的二维线程模型高度契合。本文将从实战角度,完整拆解二...

  • Resize,w 360,h 240
    CUDA 线程模型:从索引映射到多维配置

    适读人群:有 C/C++ 基础、初学 CUDA 异构并行编程的开发者。目标:系统梳理 CUDA 线程模型的核心概念,包括主机/设备分工、线程层级...

  • 从 PDE 到形态学:高效稳定的曲线与曲面演化(7)

    数值解法入门:水平集函数的偏导数与曲率离散化实现(GAC/ACWE专用) 前情回顾:在之前的分享《从 PDE 到形态学:解锁高效稳定的曲线与曲面...

    0.3 12 0 1
个人介绍
吾不识青天高,黄地厚,唯见月寒日暖,来煎人寿。