背景 当前对DeepSeek-R1此类带推理think思维链的模型进行模型能力测评缺乏一个较准确的方,MindIE当前不能对DeepSeek报告中提到的几个数据集(AIME ...

背景 当前对DeepSeek-R1此类带推理think思维链的模型进行模型能力测评缺乏一个较准确的方,MindIE当前不能对DeepSeek报告中提到的几个数据集(AIME ...
接上一章节内容,将ONNX模型拆分成loop算子部分和非loop算子部分后,分别转换成OM模型,并用for循环替换loop算子计算逻辑,比较OM模型和ONNX模型的推理结果是...
方案背景 当在线推理的速度无法满足客户要求,使用atc工具将onnx转为om模型走离线推理路径时,遇到NPU不支持LOOP算子的问题,本文提供一种解决方案。本方案的设计思路是...
ais_bench提供的python API可供使能基于昇腾硬件的离线模型(.om模型)推理。具体介绍可参考API_GUIDE[https://gitee.com/ascen...
动态BatchSize OM推理 以档位1 2 4 8档为例,设置档位为2,本程序将获取实际模型输入组Batch,每2个输入为一组,进行组Batch。示例命令: 推理结果: ...
推理环境准备 ais_bench推理工具简介 昇腾离线OM模型的推理后端是ACL(Ascend Computing Language),其底层采用C实现,后来在ACL基础上又...
本章节介绍 ONNX 模型如何转化为 OM 模型,并在昇腾AI处理器上做离线推理。 昇腾张量编译器(Ascend Tensor Compiler,简称ATC)是异构计算架构C...
本节介绍 PP-OCRv4 模型如何转化为 ONNX 模型。 环境准备 需要准备 PaddleOCR、Paddle2ONNX 模型转化环境,和 ONNXRuntime 推理环...
性能优化问题定界 在通过分析 profiling 文件找出性能瓶颈后,接下来将介绍相关的优化方法。算子时长主要由计算时间和调度时间两部分构成,下面将分别对计算时间长和调度时间...
性能调优思路 性能优化是一项系统性工作,建议采用 "分析 - 定位 - 优化" 的流程,通过性能分析工具定位瓶颈后实施针对性优化。 通过 profiling 工具获取算子级性...
本节介绍aclnn算子的三种适配场景。 Paddle-API 与 CANN-Kernel 差异剖析及适配策略 对于Paddle-API与CANN-Kernel两者中常见的差别...
适配代码仓介绍 Paddle 针对除 CPU 和 Nvidia GPU 之外的其他硬件的适配代码,均存于PaddleCustomDevice代码仓[https://githu...
精度对齐说明 精度对齐旨在确保模型在训练一定轮次后,其损失(LOSS)或评分能够与原硬件训练的结果基本相符。 精度对齐标准 下图所示为在原硬件GPU上的训练精度: 迁移到NP...
本次案例以PaddleOCRv4的模型为例,介绍将模型迁移到NPU上的流程。迁移过程要保证原模型的功能在新的硬件上不会出现错误,可以借助各种日志辅助定位,此处尤其需要注意的是...
训练常用环境变量 本节介绍的环境变量建议在训练前提前设置好。 NPU私有格式 0为关闭,建议关闭: NPU在线编译 false为关闭,建议小模型关闭,大模型打开: aclnn...
CANN环境准备 CANN镜像下载 优先下载cann8.0镜像: X86架构:https://paddle-ascend.bj.bcebos.com/cvmodel/dock...
前言 本文重点介绍Paddle与NPU的适配工作,PaddlePaddle是一个深度学习框架,类似于pytorch;PaddleCustomDeviece是适配层代码,类似于...
5. 精度调优 上一篇文章中已经成功完成权重转换,本章通过加载转换后的权重做推理进行前向对齐 5.1 推理脚本 推理脚本可以参考Mixtral-8x7B的推理脚本:/home...
1. GRIN-MOE相关链接 1.1 HuggingFace GRIN-MOE链接 https://huggingface.co/microsoft/GRIN-MoE[ht...
1. mxRag容器化部署 1.1 拉取镜像 昇腾镜像仓库:https://www.hiascend.com/developer/ascendhub/detail/27c1c...