AI布道Mr_Jin

IP属地：青海

昇腾集群PFC现象分析
一、PFC产生原因负责集群运维的同学可能都遇到过PFC现象，那么PFC到底是啥？产生原因是什么？这篇文章提供了一些分析。首先，参考官网文档[...

60 0 0
MindIE-LLM ATB模型推理全流程解析
最近，有很多小伙伴问我，如果他们想自己基于MindIE镜像中的文件适配新模型，可以怎么做？为了实现这个目标，首先需要了解MindIE-LLM模...

102 0 0

MindIE DeepSeek MTP特性定位策略
最近MindIE开始支持DeepSeek MTP（multi token prediction）特性了，用于推理加速。但是有些开发者打开MTP开...

56 0 0
大模型推理显存和计算量估计方法
最近做吞吐量调试涉及到输入batch_size的设置，为了把算力和显存用起来，同时不触发out of memory，需要提前估计大模型推理过程中...

202 0 0
DeepSeek-R1源码解读
最近和开发者做了很多DeepSeek-R1模型相关的推理项目，这两天抽时间把hugging face上面的源码拉下来仔细看了一遍，在这里做一个分...

93 0 0
昇腾训练建链超时定位策略
使用torch+mindspeed训练时，可能出现类似“wait socket establish timeout, role[0] rank[...

153 0 0
《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》阅读笔记
最近昇腾提供的大EP PD分离推理解决方案非常火，很多开发者都开始使用了。正好这两天也看了一篇PD分离的经典论文，就是Kimi采用的PD分离架构...

103 0 0

MindIE PD分离部署Q&A
PD分离是一种近年来兴起的推理加速部署方案，kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力，参考链接为...

61 0 0
attention计算过程的一些细节
最近，有粉丝问我，attention结构中计算qkv的时候，为什么要做kvcache呢？他看了一些文章，没看懂。为什么要做kvcache？假...

70 0 0