开源AI模型序列化总结

目录

模型序列化简介

模型序列化是模型部署的第一步,如何把训练好的模型存储起来,以供后续的模型预测使用,是模型部署的首先要考虑的问题。本文主要罗列当前流行开源模型不同序列化方法,以供查阅参考,欢迎添加和指正(Github)。

序列化分类

  • 跨平台跨语言通用序列化方法,主要使用三种格式:XML,JSON,和Protobuf,前两种是文本格式,人和机器都可以理解,后一种是二进制格式,只有机器能理解,但在存储传输解析上有很大的速度优势。

    • PMML (Predictive Model Markup Language),基于XML格式。由数据挖掘组织DMG(Data Mining Group)开发和维护,是表示传统机器学习模型的实际标准,具有广泛的应用。详细参考文章《使用PMML部署机器学习模型》
    • ONNX (Open Neural Network Exchange),基于Protobuf二进制格式。初始由微软和Facebook推出,后面得到了各大厂商和框架的支持,已成为表示深度神经网络模型的不二标准,通过onnx-ml也已经可以支持传统非深度神经网络模型。详细参考文章《使用ONNX部署深度学习和传统机器学习模型》
    • PFA (Portable Format for Analytics),基于JSON格式。PFA同样由PMML的领导组织DMG开发,最新标准是2015发布的0.8.1,后续再没有发布新版本。OpenDataGroup公司开发了基于PFA的预测库Hadrian,提供Java/Scala/Python/R等多语言接口。
    • MLeap,基于JSON或者Protobuf格式。开源但非标准,由初创公司Combust开发,刚开始主要提供对Spark Pipelines的支持,目前也可以支持Scikit-learn等模型。Combust同时提供了MLeap Runtime来支持MLeap格式模型,基于Scala开发,实现了一个独立的预测运行引擎,不依赖于Spark或者Scikit-learn等库。
    • Core ML,基于Protobuf二进制格式,由苹果公司开发,主要目标为在移动设备上使用AI模型。
  • 模型本身提供的自定义序列化方法

    • 文本或者二进制格式
    • 语言专有或者跨语言跨平台自定义格式
  • 语言级通用序列化方法

    • Python - pickle
    • Python - joblib
    • R - rda
    • [注释] joblib在序列化大numpy数组时有性能优势,pickle的c实现cpickle速度也很快。
  • 用户自定义序列化方法

    • 以上方法都无法达到要求,用户可以使用自定义序列化格式,以满足自己的特殊部署需求:部署性能、模型大小、环境要求等等。但这种方法在模型升级维护以及版本兼容性上是一个大的挑战。

    如何选择模型序列化方法,可以参考以下顺序,优先使用跨平台跨语言通用序列化方法,最后再考虑使用自定义序列化方法:

    ai-serialization-candidates.jpg

    在同一类型格式选项中,可以参考以下筛选流程:

    ai-serialization-flow.jpg

Scikit-learn模型序列化方法:

XGBoost模型序列化方法:

LightGBM模型序列化方式:

Spark-ML模型序列化方式

  • Spark-ML内部存储格式,PipelineModel提供saveload方法,输入的是一个路径,而不是文件名,因为要存储到多个不同的文件中。Spark在大数据的分布式处理有很大优势,比如适合批量预测和模型评估,但是对于实时预测来说,太重量级了,效率不高。提供Scala,Java和Python接口,可以跨平台和语言读取。
  • PMML:JPMML-SparkML
  • ONNX:ONNXMLTools,还在实验阶段。
  • PFA:Aardpfark,支持还不完全。
  • MLeap

Keras模型序列化方法

  • Keras内部格式

    1. HDF5:
    # Save the model
    model.save('path_to_my_model.h5')
    
    # Recreate the exact same model purely from the file
    new_model = keras.models.load_model('path_to_my_model.h5')
    
    1. TensorFlow SavedModel 格式,该格式是TensorFlow对象的独立序列化格式,由TensorFlow serving和TensorFlow(而不是Python)支持。
    # Export the model to a SavedModel
    model.save('path_to_saved_model', save_format='tf')
    
    # Recreate the exact same model
    new_model = keras.models.load_model('path_to_saved_model')
    
  • PMML: Nyoka,导出的是扩展的PMML模型,不属于PMML标准。

  • ONNX:keras2onnx

Pytorch模型序列化方法

  • Pytorch内部格式:只存储已训练模型的状态(包括weights and biases),因为仅仅为了模型预测。

    # Saving & Loading Model for Inference
    torch.save(model.state_dict(), PATH)
    
    model = TheModelClass(*args, **kwargs)
    model.load_state_dict(torch.load(PATH))
    model.eval()
    
  • ONNX:内部支持torch.onnx.export

MXNet模型序列化方法

  • MXNet内部格式

    1. 只存储模型参数,不包含模型结构,加载时需要建立模型结构。
    # Saving model parameters to file
    net = build_net(gluon.nn.Sequential())
    train_model(net)
    net.save_parameters(file_name)
    
    # Loading model parameters from file
    new_net = build_net(gluon.nn.Sequential())
    new_net.load_parameters(file_name, ctx=ctx)
    
    1. 存储模型参数和结构到JSON文件中,该格式可以跨平台和语言使用,可以在不同的语言中被加载,比如C,C++或者Scala。
    # Saving model parameters AND architecture to file
    net = build_net(gluon.nn.HybridSequential())
    net.hybridize()
    train_model(net)
    # Two files path-symbol.json and path-xxxx.params will be created, where xxxx is the 4 digits epoch number.
    net.export(path)
    
    # Loading model parameters AND architecture from file
    gluon.nn.SymbolBlock.imports(symbol_file, input_names, param_file=None, ctx=None)
    
  • ONNX:内部支持mxnet.contrib.onnx.export_model

总结

这并不是一个完整的列表,欢迎大家贡献,标星_

Github地址:https://github.com/aipredict/ai-models-serialization

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354