240 发简信
IP属地:福建
  • vllm+vllm-ascend本地部署QwQ-32B

    1 模型下载 可按照此处方法下载预热后的模型,速度较快(推荐artget方式) 或者从hugging face官方下载。 2 vllm-asce...

  • Resize,w 360,h 240
    初识华为RazorAttention

    论文原文:https://openreview.net/pdf?id=tkiZQlL04w[https://openreview.net/pdf...

  • NPU上如何使能pytorch图模式

    1 Pytorch的compile技术 PyTorch 的 torch.compile 是一个强大的功能,用于优化 PyTorch 模型的性能。...

  • NPU上运行onnxruntime

    1 问题背景 在Ascend环境上,使用onnxruntime推理时,报错: 显示的是cuda的组件找不到。由于是Ascend环境,肯定是没有G...

  • Resize,w 360,h 240
    MindIE推理采样后处理参数temperature和top_k的引发的精度问题

    背景 MindIE跑Qwen系列模型推理,测试发现后处理参数top_k很大,temperature=2的场景,模型输出有精度问题。 现象 经过进...

  • Ascend+FastAPI+ Uvicorn 实现推理

    1、FastAPI & Uvicorn FastAPI FastAPI 是一个用于构建 API 的现代、快速(高性能)的 Python Web ...

  • Resize,w 360,h 240
    解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED]

    背景 尝试使用vllm模型,脚本代码如下: 运行过程中出现: 问题分析 问题就出现在通过python去下载文件,然后SSL的安全校验出现了问题。...

  • Resize,w 360,h 240
    AscendC编程中的double buffer是什么?

    执行于AI Core上的指令队列主要包括如下几类,即: Vector指令队列(V) Matrix指令队列(M) 存储移动指令队列(MTE2、MT...

  • Resize,w 360,h 240
    AscendC从入门到精通系列(五)调用基于工程开发AscendC算子

    单算子API调用方式,是指直接调用单算子API接口,基于C语言的API执行算子。算子工程AscendC从入门到精通系列(三)基于自定义算子工程开...