predictionIO调研

做算法训练如果了解套路后，其实就那些步骤，当我们如果想把模型发布成为服务，这就是工程学的内容，model serving，从现在来看把模型部署成服务接受前端实时请求调用预测，其实就跟后端查数据库有点类似。模型训练简单，部署成服务还真不太容易。模型调参特征工程 rawdata convert to vector ,模型热部署模型切换模型定时调参模型的存储模型的版本控制模型的特征存储多个模型同时发布服务同时在线做预测，多种算法切换和集成串行并行，模型的监控跟踪预测请求的存储和监控效果监控，在线的训练并发请求抗压性能等等，所以你看其实挺不简单的。

接着我们调研了看市面上有没有像样的model serving的开源工具，当然我之前对predictionio 有印象，其实还有其他的
然后开始调研 preditionio ，查看他官网的英文文档，我发现毫无标准目标的看官方tutorial ，其实效率蛮低的，看完就忘记了，后来和leader 沟通，就咨询他对于他想要的model serving 要达到哪些指标哪些性能符合了才会选型，也幸亏问了，如果没问，leader 再回头问我调研的如何了，我可能还会吱吱呜呜说不出来，但是leader 讲了他的想法，他认为他哪些功能特性是比较重要的，比如说是否支持 pmml 文件部署，是否支持python stack 开发调用，是否支持实时预测，是否支持监控跟踪是否支持模型的存储和版本控制，是否支持多个模型同事在线部署服务。。。我就照着领导的要求有重点的去翻看tutorial中的具体体现，寻找到答案我就记下来，最后当然按照 leader的想法我找到了大部分答案，没有找到答案的，我就开始使用官方给的安装使用介绍，去安装服务使用template demo 展开测试。

自己用了用，感觉也熟了，就有了操作的敏感性，对他有了更深层次的印象。
为了查看在官方没有找到的答案，我只能去看源码，在带着问题思考不断翻看源码找到了一部分答案，更加确认 predictionio 执行调用过程架构原理

而且我还是把调研的结果写成了一个word 文档，不过最后 leader并不太满意 predictionio ，因为predictionio 一部分不太符合我们的业务场景
比如说predictionio 服务端暂时只有java scala ，团队都是python技术栈
prediction 依赖spark 太重，predictionio 对多个模型同时部署还不够友好
prediction的model存储版本控制比较简陋
predictionio 还不支持 pmml 文件的热部署，等等
不过我看网上，台湾竟然有predictionio 的培训，三万新台币培训费三天

predictionio

支持多种数据库 mysql postgresql hbase elasticsearch，模型最后是存储在数据库中
以大数据格式存储

可以接受 curl post restful 请求调用预测
接受client 程序编码调用支持 scala 和python
支持 batchpredict 批量文件的请求调用
操作由串行命令组成
先run eventserver 监听服务 pio eventserver --ip 127.0.0.1 --port 7070 &
然后 importdata 批量导入训练数据 python3 ./data/import_sever.py
然后将本地的模型项目 build 打成 jar 包， pio build

然后执行训练，训练在spark 上进行，pio build
训练成功后会生成模型并将模型存储持久化，
之后 deploy 部署模型在线服务 pio deploy
之后展开预测
pio batachpredict --input bp.json --output batchpredict.json
curl -H "Content-Type: application/json" -d '{ "attr0" :59,"attr1" :30,"attr2" : 18}' \http://localhost:8000/queries.json
或者程序化集成client 发送预测请求

predictionio 最大的特点就是将模型部署成在线服务可以被实时调用预测，压测还没有做，不过认为异步编程 future调用是比较符合场景的
算法原生支持spark 的所有算法，predictionio 最开始主要是针对推荐系统做的，现在是基本支持集成所有算法，spark mllib xgboost deeplearning4j libtensorflow
并且支持同时多个算法串行预测
算法训练的超参数是写在配置文件json中，遇到模型修改，直接修改配置文件的模型超参数即可然后重新build train deploy 即可
pio 默认在8000 端口会有监控】
pio 可以和已有的监控软件集成监控 moint
pio 服务端开发暂时只支持 java scala ，客户端预测支持 python scala java ruby
predictionio 环境在 linux centos7 和mac 上都进行了末班代码的尝试，均成功， predictionio 暂时不支持windows

以下较为重要的是
pio 是否支持支持多个模型在线服务同时在线，在进行预测的时候如何指定使用哪个模型预测，只要 pio deploy 可以指定端口基本就没有问题

pio 是否支持模型的热切换，同一个端口，更换模型，一即支持数据库已有模型的回溯部署 2 又支持新的模型训练后即部署中间可以不停止服务这个原理抓请每个 app 与模型的对应关系，如何去数据库去load 模型部署原理

pio 是如何唤起选择数据库的哪个模型部署的原理步骤

pio 在训练时候是如何选择spark 做训练是否可以支持其他原生训练比如 xgb lgbm sklearn

pio 是否可以跳过训练过程直接将pmml 文件转换成模型持久化并部署进行预测

image.png

Predictionio 大致分为五大组件
DataSource
作为读取数据支持本地数据 hdfs 数据和elasticSearch hbase数据
DATA preparatory
主要是把DataSource中读到的数据转换为模型可以使用数据格式，特征工程可以在这里做

Algorithm 主要是算法的训练和预测的，可以集成多种算法实现
Serving 是在 deploy 后执行在线预测服务的
Evaluation Metrics 作为评估模型效果
最终使用 Engine 串联起这些组件来

个人认为如果要使用predictionio 1.可以减小研发工期 2.监控可以触达3.需要了解相应组件的调用关系原理 4.使用中可能需要面临二次开发中间灵活调用各个过程组件

image.png

predictionIO调研

推荐阅读更多精彩内容