转载:【AI系统】昇腾推理引擎 MindIE

本文将介绍华为昇腾推理引擎 MindIE 的详细内容,包括其基本介绍、关键功能特性以及不同组件的详细描述。

本文内容将深入探讨 MindIE 的三个主要组件:MindIE-Service、MindIE-Torch 和 MindIE-RT,以及它们在服务化部署、大模型推理和推理运行时方面的功能特性和应用场景。通过本文的介绍,读者将对 MindIE 有一个全面的了解,包括其如何支持 AI 业务的高效运行和模型的快速部署。

MindIE 基本介绍

MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对 AI 全场景业务的推理加速套件。通过分层开放 AI 能力,支撑用户多样化的 AI 业务需求,使能百模千态,释放昇腾硬件设备算力。支持多种主流 AI 框架,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

业界标准 RPC 接口高效对接业务层,支持 Triton 和 TGI 等主流推理服务框架,实现小时级应用部署。提供针对 LLM(transformer)和文生图(SD 模型)的加速参考代码和预置模型,开箱性能业界领先。少量代码实现训练向推理平滑迁移,昇腾训推同构小时级模型迁移,以及 GPU 模型向昇腾 2 人周高效迁移。

昇腾推理引擎支持请求并发调度和模型多实例并发调度,支持多种异步下发,多流水执行,实现高效的推理加速。支持从 PyTorch 和昇思对接从训练模型转换推理模型的过程,支持多种推理服务框架和兼容接口。提供基于昇腾架构亲和加速技术,覆盖推理全流程的图转换、组网、编译、推理执行、调试调优接口。

已发布 MindIE Service、MindIE Torch、MindIE RT 三个组件。

MindIE-Service

MindIE-Service 针对通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型、文生图等多类型模型的高性能推理需求。

MindIE-Server 作为推理服务端,提供模型服务化能力;MindIE-Client 提供服务客户端标准 API,简化用户服务调用。MindIE-Service 向下调用了 MindIE-LLM 组件能力。

MindIE-Torch

MindIE-Torch 是针对 Pytorch 框架模型的推理加速插件。Pytorch 框架上训练的模型利用 MindIE-Torch 提供的简易 C++/Python 接口,少量代码即可完成模型迁移,实现高性能推理。MindIE-Torch 向下调用了 MindIE-RT 组件能力。

MindIE-RT

MindIE-RT 是面向昇腾 AI 处理器的推理加速引擎,提供模型推理迁移相关开发接口及工具,能够将不同的 AI 框架(PyTorch、ONNX 等)上完成训练的算法模型统一为计算图表示,具备多粒度模型优化、整图下发以及推理部署等功能。集成 Transfomer 高性能算子加速库 ATB,提供基础高性能算子,和高效的算子组合技术(Graph)便于模型加速。

关键功能特性

服务化部署

MindIE-Service 是面向通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型、文生图等多类型模型的高性能推理需求。它的组件包括 MindIE-Server、MindIE-Client、Benchmark 评测工具等,一方面通过对接昇腾的推理加速引擎带来大模型在昇腾环境中的性能提升,另一方面,通过接入现有的主流推理框架生态,逐渐以性能和易用性牵引存量生态的用户向全自研推理服务化平台迁移。

支持的特性:

支持大模型服务化快速部署。

提供了标准的昇腾服务化接口,兼容 Triton/OpenAI/TGI/vLLM 等第三方框架接口。

支持 Continuous Batching,PagedAttention。

支持基于 Transformer 推理加速库(Ascend Transformer Boost)的模型接入,继承其加速能力,包括融合加速算子、量化等特性。

大模型推理

提供大模型推理能力,支持大模型业务全流程,逐级能力开放,使能大模型客户需求定制化。

Pytorch 模型迁移

对接主流 Pytorch 框架,实现训练到推理的平滑迁移,提供通用的图优化并行推理能力,提供用户深度定制优化能力。MindIE-Torch 是推理引擎组件中针对 Pytorch 框架模型的推理加速插件。Pytorch 框架上训练的模型利用 MindIE-Torch 提供的简易 C++/Python 接口,少量代码即可完成模型迁移,实现高性能推理。

2. MindIE-Torch TorchScript 支持以下功能特性

支持 TorchScript 模型的编译优化,生成可直接在昇腾 NPU 设备加速推理的 TorchScript 模型。

支持静态输入和动态输入,动态输入分为动态 Dims 和 ShapeRange 两种模式。

编译优化时支持混合精度、FP32 以及 FP16 精度策略。

支持用户自定义 converter 和自定义 pass。

支持异步推理和异步数据拷贝。

支持与 torch_npu 配套使用,算子可 fallback 到 torch_npu 执行。

支持多语言 API(C++、Python)。

3. MindIE-Torch ExportedProgram 支持以下功能特性:

支持 ExportedProgram 的编译优化,生成可直接在昇腾 NPU 设备加速推理的 nn.Module 模型。

支持静态输入和动态 ShapeRange 输入。

编译优化时支持混合精度、FP32、FP16 精度策略。

支持异步推理和异步数据拷贝。

支持 Python API。

推理运行时

集成推理应用接口及 Transformer 加速库,提供推理迁移相关开发接口及工具,提供通用优化及并行推理能力》。MindIE-RT(Mind Inference Engine RT,昇腾推理引擎运行时)是针对昇腾 AI 处理器的推理加速引擎,提供 AI 模型推理场景下的商业化部署能力,能够将不同的 AI 框架上完成训练的算法模型统一为计算图表示,具备多粒度模型优化、整图下发以及推理部署等功能。

MindIE-RT 集成昇腾高性能算子加速库 ATB,为实现基于 Transformer 的神经网络推理加速引擎库,库中包含了各类 Transformer 类模型的高度优化模块,如 Encoder 和 Decoder 部分。

MindIE-RT 专注于为用户提供快速迁移、稳定精度以及极致性能的推理服务,让用户能够脱离底层硬件细节和不同平台框架的差异,专注于推理业务本身,实现高效的模型部署开发。并且专门针对大模型下的 Transformer 架构,提高 Transformer 模型性能,提供了基础的高性能的算子,高效的算子组合技术(Graph),方便模型加速。目前 MindIE-RT 已实现动态输入推理,解析框架模型等功能特性。

MindIE-RT 支持以下功能特性

支持多语言 API(C++, Python):详情参见 C++编程模型和 Python 编程模型。

提供 parser,支持直接导入 AI 框架 ONNX 模型,详情参见解析框架模型。

支持 Transformer 算子加速库,集成基础高性能算子,详情可见 ATB 高性能加速库使用。

支持丰富的编译时优化方法和运行时优化方法,用户可以在昇腾 AI 处理器上占用较少的内存,部署更高性能的推理业务,提供的优化方法如:精度优化和常量折叠。

2.应用场景

MindIE-RT 是基于昇腾 AI 处理器的部署推理引擎,适用于通过 NPU、GPU、CPU 等设备训练的算法模型,为其提供极简易用且灵活的接口,实现算法从训练到推理的快速迁移。目前 MindIE-RT 的快速迁移能力已支持以下业务场景:

计算机视觉。

自然语言处理。

推荐、检索。

大模型对话。

如果您想了解更多AI知识,与AI专业人士交流,请立即访问昇腾社区官方网站https://www.hiascend.com/或者深入研读《AI系统:原理与架构》一书,这里汇聚了海量的AI学习资源和实践课程,为您的AI技术成长提供强劲动力。不仅如此,您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事,发现AI世界的无限奥秘~

转载自:AI系统】昇腾推理引擎 MindIE-ZOMI酱的文章-知乎

https://zhuanlan.zhihu.com/p/6878214249

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容