240 发简信
IP属地:宁夏
  • Resize,w 360,h 240
    昇腾集群PFC现象分析

    一、PFC产生原因 负责集群运维的同学可能都遇到过PFC现象,那么PFC到底是啥?产生原因是什么?这篇文章提供了一些分析。 首先,参考官网文档[...

  • MindIE-LLM ATB模型推理全流程解析

    最近,有很多小伙伴问我,如果他们想自己基于MindIE镜像中的文件适配新模型,可以怎么做? 为了实现这个目标,首先需要了解MindIE-LLM模...

  • MindIE DeepSeek MTP特性定位策略

    最近MindIE开始支持DeepSeek MTP(multi token prediction)特性了,用于推理加速。但是有些开发者打开MTP开...

  • 大模型推理显存和计算量估计方法

    最近做吞吐量调试涉及到输入batch_size的设置,为了把算力和显存用起来,同时不触发out of memory,需要提前估计大模型推理过程中...

  • DeepSeek-R1源码解读

    最近和开发者做了很多DeepSeek-R1模型相关的推理项目,这两天抽时间把hugging face上面的源码拉下来仔细看了一遍,在这里做一个分...

  • 昇腾训练建链超时定位策略

    使用torch+mindspeed训练时,可能出现类似“wait socket establish timeout, role[0] rank[...

  • 《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》阅读笔记

    最近昇腾提供的大EP PD分离推理解决方案非常火,很多开发者都开始使用了。正好这两天也看了一篇PD分离的经典论文,就是Kimi采用的PD分离架构...

  • MindIE PD分离部署Q&A

    PD分离是一种近年来兴起的推理加速部署方案,kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力,参考链接为...

  • attention计算过程的一些细节

    最近,有粉丝问我,attention结构中计算qkv的时候,为什么要做kvcache呢?他看了一些文章,没看懂。 为什么要做kvcache? 假...