黑天鹅学院 - 简书

IP属地：宁夏

推理引擎TP并行-MLP流程
#01 原理前文中我们已经描述过MLP列并行与行并行的基础原理。简单回顾一下：权重按列切：输入不能切分，得到的是结果，shape是不完整的...

33 0 0
推理引擎TP并行-MLP基础概念
#01基础概念张量并行是一种模型并行策略，它将神经网络层的权重矩阵在不同设备间进行分割，使每个设备只负责部分计算，从而实现并行处理。在MLP中...

49 0 0

CUDA知识点之Bank Conflict(4)- Z-Order排布
#01 基础原理在前面的文章中，我们已经知道，shared memory 访存是通过 memory transaction （内存事务）进行的...

819 0 0
CUDA知识点之Bank Conflict(3)-向量化访问
#01 背景在前文的讨论中，我们分析了一个warp内的每个线程访问4个Byte的情况，这样所有线程发起一次读写请求，可以访问到128 Byte...

36 0 0
CUDA知识点之Bank Conflict(2)-冲突避免
#01 前情回顾前面的文章中，我们简单分析了shared memory Bank Conflict的基础概念，本文我们来对如何避免Bank冲突...

441 0 0
CUDA知识点之Bank Conflict(1)-概念
CUDA共享内存是一种位于GPU芯片上的高速内存，其读写带宽远高于全局内存（约10倍以上），读写延迟也显著降低（约20~30倍）。这使得共享内存...

663 0 1
huggingface模型下载tips
登陆huggingface账户通过snapshot_download下载模型如果需要登陆token： modelscope模型下载 hf格式...

3655 0 0

Rust Trait
观感 Rust的Trait和Golang的interface看起来非常相似，从开发者角度来看，都可以实现具体类型的抽象化。 golang: Ru...

4042 0 0
Rust手动管理内存
为了确保安全性，Rust在零抽象的基础上，限制了很多易导致潜在bug的操作，比如直接指针操作，以及长生命周期等等，但是在某些情况下，如果涉及到操...

5696 0 0