此间不留白 - 简书

发简信

此间不留白

34
关注
158
粉丝
138
文章
171434

字数
400

收获喜欢
109

总资产

IP属地：上海

此间不留白

利用CUDA并行加速卷积运算（基础版本）
本文面向有一定编程基础的开发者，系统介绍卷积运算的数学原理以及如何用 CUDA 编写高效的 GPU 并行卷积核函数。一、卷积运算是什么？卷积的本质是用一个小窗口（过滤器）...

26 0 1
此间不留白

# 从DRAM原理到CUDA内存合并：为什么你的GPU程序跑不快？
在GPU编程中，我们常常会遇到一个令人困惑的现象：明明GPU拥有成百上千个计算核心，理论算力远超CPU，但实际运行时却常常跑不满，甚至比CPU还慢。答案几乎总是：内存访问效...

36 0 0

此间不留白

2026-04-10
使用共享内存和分块矩阵优化矩阵乘法一、朴素矩阵乘法实现线程分工 CUDA 矩阵乘法中，一个线程只负责计算并输出结果矩阵 P 的一个元素。这条规则在朴素版和分块版中完全一致...

41 0 0
此间不留白

CUDA 性能优化：从延迟隐藏到 SM 占用率
本文将从 GPU 最核心的 SIMT 执行模型出发，层层拆解 Grid/Block 配置、Warp 调度与 SM 占用率的深层关系，最终落地到内存合并访问的实战优化，参考资料...

83 0 0
此间不留白

CUDA线程与线程束执行解析
在CUDA异构并行编程的学习中，容易陷入「只关注代码逻辑，忽略底层硬件执行规则」的误区，导致写出的核函数要么结果错误，要么性能远低于预期。本文将按照从硬件基础到执行模型、从编...

24 0 0
此间不留白

CUDA核心与线程束（Warp）执行解析
在CUDA异构并行计算学习中，本文围绕“单个CUDA核心能否执行多个线程”的核心提问，延伸出线程束（warp）拆分、执行模型、SM处理块分组及硬件设计趋势等关键知识点参考资料...

51 0 0
此间不留白

CUDA并行计算：从GPU硬件架构到线程调度与透明可扩展性
本文基于CUDA异构并行计算的核心底层逻辑，从程序员视角的GPU硬件架构出发，完整梳理「线程块调度规则→屏障同步机制→架构核心优势」的知识体系。参考资料：《Programmi...

34 0 1

此间不留白

CUDA并行计算实战：从图像模糊到矩阵乘法
CUDA并行计算实战：从图像模糊到矩阵乘法本文基于CUDA异构并行计算的两个经典入门场景——图像模糊与矩阵乘法，从底层原理、线程映射、核函数实现，到边界处理、硬件约束与工程...

49 0 2
此间不留白

CUDA二维图像处理：从线程配置、坐标映射到边界处理
图像处理是CUDA并行计算最经典的落地场景之一，数字图像天然的「行-列二维结构」，与CUDA的二维线程模型高度契合。本文将从实战角度，完整拆解二维图像处理的CUDA实现全流程...

39 0 0
此间不留白

CUDA 线程模型：从索引映射到多维配置
适读人群：有 C/C++ 基础、初学 CUDA 异构并行编程的开发者。目标：系统梳理 CUDA 线程模型的核心概念，包括主机/设备分工、线程层级结构、内置变量、多维配置规则、...

27 0 0
此间不留白

从 PDE 到形态学：高效稳定的曲线与曲面演化（7）
数值解法入门：水平集函数的偏导数与曲率离散化实现（GAC/ACWE专用）前情回顾：在之前的分享《从 PDE 到形态学：解锁高效稳定的曲线与曲面演化新范式》[https://...

18 0 1
此间不留白

从 PDE 到形态学：高效稳定的曲线与曲面演化（6）
形态学无边缘活动轮廓（Morphological ACWE）详解：从能量泛函到离散形态学算子 ACWE（Active Contours Without Edges，无边缘活动...

39 0 1

此间不留白

从 PDE 到形态学：高效稳定的曲线与曲面演化（5）
形态学测地线活动轮廓（Morphological GAC）详解：接上文[https://www.jianshu.com/p/986d2da82489]，本文将从传统GAC的...

54 0 1
此间不留白

从 PDE 到形态学：高效稳定的曲线与曲面演化（4）
核心理论扩展与关键图表解析接上文[https://www.jianshu.com/p/1625b6e58566]，本文进一步聚焦于曲率形态学算子在 2D/3D 空间的具体理...

35 0 0
此间不留白

从 PDE 到形态学：高效稳定的曲线与曲面演化（3）
曲率形态学算子推导详解接上文[https://www.jianshu.com/p/24655bc81294], 本文深入解析曲率形态学算子理论的核心定理——完整展示从基础定...

36 0 1
此间不留白

从 PDE 到形态学：高效稳定的曲线与曲面演化（2）
曲率形态学算子理论与推导详解摘要：接着上文[https://www.jianshu.com/p/b47aba0e0995]，本文深入探讨了基于形态学算子的曲率驱动轮廓演化...

87 0 1
此间不留白

从 PDE 到形态学：高效稳定的曲线与曲面演化（1）
在计算机视觉和图形学领域，曲线与曲面演化是图像分割、目标跟踪、形状分析的核心技术。传统方法依赖偏微分方程（PDE）和水平集框架，但往往面临计算成本高、数值稳定性差、需要定期重...

46 0 2

此间不留白

C++ 自旋锁
C++ 自旋锁 (SpinLock) 实现分析代码概述核心组件分析 1. 头文件说明 : 标准输入输出库（本例未直接使用，但通常并发程序会用到） : C++11 原子操作...

100 0 4
此间不留白

程序性能优化指南——以矩阵乘法为例
© 2008–2018 by the MIT 6.172 Lecturers 衡量程序性能的指标一般以FLOPS（Floating Point Operations Per...

332 0 0