前言
我们很高兴的宣布,MLSQL v1.1.7 历经社区一个多月的高强度开发终于在新年的第一个月发布了。
MLSQL v1.1.7 带来了大量的功能特性和稳定性提升。也是v1.2.0 里程碑版发布前最重要的一个版本。
下面我们来介绍MLSQL v1.1.7的一些重要功能特性。
下文我们把MLSQL里的Estimator/Transformer 简称为 ET
下载地址:
MLSQL-1.1.7
如果只是学习和调研,我们更加推荐Docker容器,比如一分钟用MLSQL体验文本分类
文档
该版本我们在官网发布了第一份覆盖主题比较全面的中文文档:
该文档主题以【用户指南】为主。【开发者指南】我们会在v1.2.0 版本推出。
Python支持
在 v1.1.7 我们新增加了ET PythonParallelExt,可以用python对数据进行分布式处理,有点类似hadoop 的stream pipline。但该ET功能更加强大:
- 该ET实现了Python环境依赖的自动管理。
- 支持资源文件配置
- 无论python脚本,项目依赖描述都是可以直接在MLSQL脚本中完成
详情参看 PythonParallelExt文档。
同时我们对原有的PythonAlg也做了相应的增强,支持在MSLQL脚本完成所有工作,而不是再单独构建Python项目。
数据源增强
MLSQL 在v1.1.7 新增支持Solr, MongoDB, Hive Thrift Server JDBC 支持,并且对原有HBase, ElasticSearch等做了新的规范。
新增MLSQL-Console
在v1.1.6版本,我们增加了MLSQL-Cluster,方便大家管理和维护多个MLSQL-Engine.在v1.1.7 我们隆重推出了MLSQL-Console实现可视化编辑和执行mlsql脚本。参看介绍文章MLSQL 控制台预览版 推出啦.
Docker支持
MLSQL-Engine, MLSQL-Cluster,MLSQL-Console 都有官方docker镜像了,体验和使用更加简单。镜像地址,也可参考这篇文章
数据源仓库
在该版本中,我们还提供了全新的【数据源仓库】概念。我们知道,在使用MLSQL时,如果需要使用数据源(比如MongoDB),需要将相应的驱动通过 --jars
带上。如果我临时需要再加一个数据源,就需要重启MLSQL-Engine,而且最重要的是,我也不知道到底依赖了哪些包。 更多细节参看该运行时添加数据源依赖。
下个版本
下个版本之后,我们的发布会更加合规。1.1.x 中间数字为正常迭代版本, 第三个数字为bug修改正版本,第一个数字为大版本(如内核发生改变)。所以下个版本我们会是1.2.0。在1.1.7版本中如果有有紧急bug,我们会先暂时放到1.1.7.x 中。后续发布1.2.0之后,对于bug修改会放在1.2.x,之后正常版本迭代会是1.3.x,1.4.x....这个样子。