本文面向有一定编程基础的开发者,系统介绍卷积运算的数学原理以及如何用 CUDA 编写高效的 GPU 并行卷积核函数。 一、卷积运算是什么? 卷积的本质是用一个小窗口(过滤器)...
本文面向有一定编程基础的开发者,系统介绍卷积运算的数学原理以及如何用 CUDA 编写高效的 GPU 并行卷积核函数。 一、卷积运算是什么? 卷积的本质是用一个小窗口(过滤器)...
在GPU编程中,我们常常会遇到一个令人困惑的现象:明明GPU拥有成百上千个计算核心,理论算力远超CPU,但实际运行时却常常跑不满,甚至比CPU还慢。 答案几乎总是:内存访问效...
使用共享内存和分块矩阵优化矩阵乘法 一、朴素矩阵乘法实现 线程分工 CUDA 矩阵乘法中,一个线程只负责计算并输出结果矩阵 P 的一个元素。这条规则在朴素版和分块版中完全一致...
本文将从 GPU 最核心的 SIMT 执行模型出发,层层拆解 Grid/Block 配置、Warp 调度与 SM 占用率的深层关系,最终落地到内存合并访问的实战优化,参考资料...
在CUDA异构并行编程的学习中,容易陷入「只关注代码逻辑,忽略底层硬件执行规则」的误区,导致写出的核函数要么结果错误,要么性能远低于预期。本文将按照从硬件基础到执行模型、从编...
在CUDA异构并行计算学习中,本文围绕“单个CUDA核心能否执行多个线程”的核心提问,延伸出线程束(warp)拆分、执行模型、SM处理块分组及硬件设计趋势等关键知识点参考资料...
本文基于CUDA异构并行计算的核心底层逻辑,从程序员视角的GPU硬件架构出发,完整梳理「线程块调度规则→屏障同步机制→架构核心优势」的知识体系。参考资料:《Programmi...
CUDA并行计算实战:从图像模糊到矩阵乘法 本文基于CUDA异构并行计算的两个经典入门场景——图像模糊与矩阵乘法,从底层原理、线程映射、核函数实现,到边界处理、硬件约束与工程...
图像处理是CUDA并行计算最经典的落地场景之一,数字图像天然的「行-列二维结构」,与CUDA的二维线程模型高度契合。本文将从实战角度,完整拆解二维图像处理的CUDA实现全流程...
适读人群:有 C/C++ 基础、初学 CUDA 异构并行编程的开发者。目标:系统梳理 CUDA 线程模型的核心概念,包括主机/设备分工、线程层级结构、内置变量、多维配置规则、...
数值解法入门:水平集函数的偏导数与曲率离散化实现(GAC/ACWE专用) 前情回顾:在之前的分享《从 PDE 到形态学:解锁高效稳定的曲线与曲面演化新范式》[https://...
形态学无边缘活动轮廓(Morphological ACWE)详解:从能量泛函到离散形态学算子 ACWE(Active Contours Without Edges,无边缘活动...
形态学测地线活动轮廓(Morphological GAC)详解: 接上文[https://www.jianshu.com/p/986d2da82489],本文将从传统GAC的...
核心理论扩展与关键图表解析 接上文[https://www.jianshu.com/p/1625b6e58566],本文进一步聚焦于曲率形态学算子在 2D/3D 空间的具体理...
曲率形态学算子推导详解 接上文[https://www.jianshu.com/p/24655bc81294], 本文深入解析曲率形态学算子理论的核心定理——完整展示从基础定...
曲率形态学算子理论与推导详解 摘要:接着 上文[https://www.jianshu.com/p/b47aba0e0995],本文深入探讨了基于形态学算子的曲率驱动轮廓演化...
在计算机视觉和图形学领域,曲线与曲面演化是图像分割、目标跟踪、形状分析的核心技术。传统方法依赖偏微分方程(PDE)和水平集框架,但往往面临计算成本高、数值稳定性差、需要定期重...
C++ 自旋锁 (SpinLock) 实现分析 代码概述 核心组件分析 1. 头文件说明 : 标准输入输出库(本例未直接使用,但通常并发程序会用到) : C++11 原子操作...
© 2008–2018 by the MIT 6.172 Lecturers 衡量程序性能的指标 一般以FLOPS(Floating Point Operations Per...