zjun3021 - 简书

IP属地：黑龙江

vllm+vllm-ascend本地部署QwQ-32B
1 模型下载可按照此处方法下载预热后的模型，速度较快（推荐artget方式）或者从hugging face官方下载。 2 vllm-asce...

793 0 0
初识华为RazorAttention
论文原文：https://openreview.net/pdf?id=tkiZQlL04w[https://openreview.net/pdf...

525 0 0

NPU上如何使能pytorch图模式
1 Pytorch的compile技术 PyTorch 的 torch.compile 是一个强大的功能，用于优化 PyTorch 模型的性能。...

384 0 0
NPU上运行onnxruntime
1 问题背景在Ascend环境上，使用onnxruntime推理时，报错：显示的是cuda的组件找不到。由于是Ascend环境，肯定是没有G...

669 0 0
MindIE推理采样后处理参数temperature和top_k的引发的精度问题
背景 MindIE跑Qwen系列模型推理，测试发现后处理参数top_k很大，temperature=2的场景，模型输出有精度问题。现象经过进...

548 0 0
Ascend+FastAPI+ Uvicorn 实现推理
1、FastAPI & Uvicorn FastAPI FastAPI 是一个用于构建 API 的现代、快速（高性能）的 Python Web ...

728 0 0
解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]
背景尝试使用vllm模型，脚本代码如下：运行过程中出现：问题分析问题就出现在通过python去下载文件，然后SSL的安全校验出现了问题。...

747 0 0

AscendC编程中的double buffer是什么？
执行于AI Core上的指令队列主要包括如下几类，即： Vector指令队列（V） Matrix指令队列（M）存储移动指令队列（MTE2、MT...

525 0 0
AscendC从入门到精通系列（五）调用基于工程开发AscendC算子
单算子API调用方式，是指直接调用单算子API接口，基于C语言的API执行算子。算子工程AscendC从入门到精通系列（三）基于自定义算子工程开...

942 0 0