240 发简信
IP属地:北京
  • 代码设计原则

    1、DRY原则DRY是 Don't repeat yourself 的缩写,意思是"不要重复自己"。它的涵义是,系统的每一个功能都应该有唯一的实现。也就是说,如果多次遇到同样...

  • Scala集合精粹

    Controlling complexity is the essence of computer programming. -- Brian Kernigan. 当我第一次...

  • 之前与遇到过类似的问题,当然并没有所有场景都解决掉,离线预测时用jpmml也很慢,后来用了pyspark,把python和spark结合在一起,这样预测lightgbm等有python接口的就没问题了,还有例如sklearn训练出的模型都ok,性能要好于用jpmml,看过jpmml的各种实现,里面构造比较多的map类,同时对稀疏数据的计算也都是补上默认值,效率不行。

    机器学习模型线上部署感受

    目前存在的几种模型上线的方式 1、R+pmml+spark+airflow调度 其他团队用R语言训练模型并转为pmml文件,然后我们使用spark将这个pmml文件封装为ja...

  • 机器学习模型线上部署感受

    目前存在的几种模型上线的方式 1、R+pmml+spark+airflow调度 其他团队用R语言训练模型并转为pmml文件,然后我们使用spark将这个pmml文件封装为ja...

  • 文哥是这本书的作者之一吗?

    美团机器学习实践第二章-特征工程总结

    思维导图如下: 在机器学习应用中,特征工程扮演重要的角色,可以说特征工程时机器学习应用的基础。我们都知道,数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限...

  • 120
    从小白到入门算法,我的经验分享给你~

    研究生三年,作为一名非计算机专业的学生,能够从一名纯小白(Python不会,机器学习没听说过)到最后校招拿到几个不错的offer,个人感觉可以给自己打个及格分吧。写本文的目的...

  • Spark Streaming 1.6 流式状态管理分析

    Spark 1.6发布后,官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。 关于状态管理 在流式计算中,数据是持续不...

  • Spark会把数据都载入到内存么?

    这篇文章算是个科普贴。如果已经熟悉Spark的就略过吧。 前言 很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。 比如,很多时候我们常常以...

  • Spark中的通信与传输

    Spark中涉及到通信与相关的包括 Driver和Executor之间的通信Driver和Executor之间通过RPC进行传输,通过RpcEnvFactory构造,通过 s...