240 发简信
IP属地:北京
  • 二十种特征变换方法及Spark MLlib调用实例(Scala/Java/python)(一)

    Tokenizer (分词器)算法介绍:Tokenization将文本划分为独立个体(通常为单词)。下面的例子展示了如何把句子划分为单词。Reg...

  • 三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)及Spark MLlib调用实例(Scala/Java/python)(转)

    Spark MLlib 提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer其各自原理与调用代码整理...

  • Resize,w 360,h 240
    Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)【转】

    本文中,我们介绍机器学习管道的概念。机器学习管道提供一系列基于数据框的高级的接口来帮助用户建立和调试实际的机器学习管道。 管道里的主要概念MLl...

  • Spark机器学习库(MLlib)指南【转】

    MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具: 1.机器学习算法:常规机器学习算法包括分...

个人介绍
武不能跨马定邦,文不能提笔安民。庸庸世上过客,懒懒性情中人。