什么是H2O Sparkling Water
Sparkling Water允许用户将快速,可扩展的H2O机器学习算法与Spark的功能相结合。 使用Sparkling Water,用户可以从Scala / R / Python驱动计算并利用H2O Flow UI,为应用程序开发人员提供理想的机器学习平台。
Spark是一个优雅而强大的通用,开源,内存平台,具有巨大的动力。 H2O是一种用于机器学习的内存应用程序,它正在重塑人们如何将数学和预测分析应用于他们的业务问题。
集成这两个开源环境为想要使用Spark SQL进行查询的用户提供了无缝体验,将结果提供给H2O以构建模型并进行预测,然后在Spark中再次使用结果。 对于任何给定的问题,工具之间更好的互操作性提供了更好的体验。
如何安装
这里介绍在R里面的安装:
- Download and unpack Sparkling Water distribution
cd ~/Downloads
unzip sparkling-water-2.3.15.zip
cd sparkling-water-2.3.15
- Install RSparkling dependency, SparklyR:
install.packages("sparklyr")
- Install Spark:
library(sparklyr)
spark_install(version = "2.3.2")
- Install H2O of correct version:
install.packages("h2o", type = "source", repos = "https://h2o-release.s3.amazonaws.com/h2o/rel-wright/9/R")
- Finally, install RSparkling
Install latest version from CRAN:
install.packages("rsparkling")
install latest version from the downloaded distribution.
# rsparkling_0.2.10.tar.gz is available at the downloaded distribution.
install.packages("rsparkling_0.2.10.tar.gz", repos=NULL, type="source")
- Set Sparkling Water version to be used with RSparkling
options(rsparkling.sparklingwater.version = "2.3.15")
library(rsparkling)
- Connect to Spark
sc <- spark_connect(master = "local", version = "2.3.2")
- Now, H2OContext is available and we can use any H2O features available in R.
h2o_context(sc)