MLLib实践Naive Bayes

引言

本文基于Spark (1.5.0) ml库提供的pipeline完整地实践一次文本分类。pipeline将串联单词分割(tokenize)、单词频数统计(TF)，特征向量计算(TF-IDF)，朴素贝叶斯（Naive Bayes）模型训练等。
本文将基于“20 NewsGroups” 数据集训练并测试Naive Bayes模型。这二十个新闻组数据集合是收集大约20,000新闻组文档，均匀的分布在20个不同的集合。我将使用'20news-bydate.tar.gz'文件，因为该数据集中已经将数据划分为两类：train和test，非常方便我们对模型进行训练和评价。

20news-bydate.tar.gz - 20 Newsgroups sorted by date; duplicates and some headers removed (18846 documents)

Naive Bayes算法介绍

NB算法属于有监督分类算法，对输入数据:

$X^j=(x^j_1,...,x^j_N),j\in{1,...,M}$

M表示输入样本容量，我们的目标是将其对号入座到某一个分类结果:

$y^j\in{y_1,...,y_K}$

我们将选择可能性最大的那个分类结果，或者说概率最大的那个分类：

$y^j=\text{arg}max_y{P(y|X^j)},j\in{1,...,M}$

根据贝叶斯公式：![][bayes]
我们在分类时只需要考虑分子上的两项乘积，并由此可以得出结论：后验概率∝似然概率✖️先验概率（最大后验概率问题转化为最大似然问题）。
进一步地，Naive Bayes模型假设了似然函数的计算时简单地假设X的各维度之间独立，这样可以简化似然概率计算公式为：![][likeli]
即给定分类下某个输入X出现的概率等于该分类下输入X各个维度分别出现的概率乘积。
综上，在naive bayes算法框架下，对于某个输入X：

如果X属于某个分类y的概率的概率大于属于其它分类的概率，则判定该输入属于分类y;
X属于某个分类y的概率正比于分类y自身出现的概率✖️该分类y条件下X各个维度出现的概率的乘积。

那么，模型训练的目标就很明朗了，我们需要基于给定的训练样本计算出:

各个分类的先验概率：
$P(y_k),k\in{1,...,K}$
训练样本中，每个分类条件下，输入各个维度出现的似然概率：![][likeli_i]

模型用于分类新数据的计算：
![][predict]

[bayes]: http://latex.codecogs.com/svg.latex?\begin{align}P(y|(x_i,...,x_N))\=\frac{P(x_1,...,x_N|y)P(y)}{P(x_1,...,x_N)}\end{align}
[likeli]:http://latex.codecogs.com/svg.latex?P(x_1,...,x_N|y)=\prod_i^NP(x_i|y)
[likeli_i]:http://latex.codecogs.com/svg.latex?\theta(i,k)=P(x_i|y_k),i\in{1,...,N}
[predict]:http://latex.codecogs.com/svg.latex?y^{{new}=\text{arg}max_y{P(y)\cdot\prod_i}NP(x^{new}_i|y)}

spark mllib中算法流程

spark中对NaiveBayes算法的实现非常清晰明了，算法通过combineByKey计算每个分类下：
![][calc_pi]和![][calc_th_i_k]
[calc_pi]:http://latex.codecogs.com/svg.latex?p_k=\frac{\sum_{j=1}^{M\mathbb{I}(y}j=y_k)}{M}
[calc_th_i_k]: http://latex.codecogs.com/svg.latex?\theta(,k)=\frac{\sum_{j=1}^{M\mathbb{I}(y}j=y_k)\cdot{X^{j}+\alpha}{\sum_{j=1}}M{X^j}+\alpha\cdot{M}}

20 newsgroups实践

数据集分为train和test两组，分别用于训练和测试。每组数据都分为20类，每类数据存放在各自子文件下：

.
├── 20news-bydate-test
│   ├── alt.atheism
│   ├── comp.graphics
│   ├── comp.os.ms-windows.misc
│   ├── comp.sys.ibm.pc.hardware
│   ├── comp.sys.mac.hardware
│   ├── comp.windows.x
│   ├── misc.forsale
│   ├── rec.autos
│   ├── rec.motorcycles
│   ├── rec.sport.baseball
│   ├── rec.sport.hockey
│   ├── sci.crypt
│   ├── sci.electronics
│   ├── sci.med
│   ├── sci.space
│   ├── soc.religion.christian
│   ├── talk.politics.guns
│   ├── talk.politics.mideast
│   ├── talk.politics.misc
│   └── talk.religion.misc
└── 20news-bydate-train
    ├── alt.atheism
    ├── comp.graphics
    ├── comp.os.ms-windows.misc
    ├── comp.sys.ibm.pc.hardware
    ├── comp.sys.mac.hardware
    ├── comp.windows.x
    ├── misc.forsale
    ├── rec.autos
    ├── rec.motorcycles
    ├── rec.sport.baseball
    ├── rec.sport.hockey
    ├── sci.crypt
    ├── sci.electronics
    ├── sci.med
    ├── sci.space
    ├── soc.religion.christian
    ├── talk.politics.guns
    ├── talk.politics.mideast
    ├── talk.politics.misc
    └── talk.religion.misc

原始文档将经过如下流程训练得到NaiveBayes模型：

代码中的几点注解：

各类数据根据所在的子文件夹来分类，我们在写代码时需要利用子文件夹名称，这时可以通过调用sc.wholeTextFiles(...)函数得到RDD(String,String)类型的原始数据，_1表示文件的绝对路径，_2表示该文件的内容。我们进一步从_1中截取出子文件夹的名称f.split("/").takeRight(2).head.
pipeline框架基于DataFrame，所有我们需要将RDD转为DataFrame：

import sqlContext.implicits._
labelNameAndData.toDF("id", "sentence").cache()```
- 所有的转换都使用ml提供的类，未做任何定制或改动，当前模型在测试集上的准确度为82%。

代码：
```scala
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.classification.NaiveBayes
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}
import org.apache.spark.{Logging, SparkConf, SparkContext}


object NBTest extends App with Logging {
  def createRawDf(s: String) = {
    //sc.setLogLevel("INFO")
    val fileNameData = sc.wholeTextFiles(s)

    val uniqueLabels = Array("alt.atheism", "comp.graphics", "comp.os.ms-windows.misc", "comp.sys.ibm.pc.hardware", "comp.sys.mac.hardware", "comp.windows.x", "misc.forsale", "rec.autos", "rec.motorcycles", "rec.sport.baseball", "rec.sport.hockey", "sci.crypt", "sci.electronics", "sci.med", "sci.space", "soc.religion.christian", "talk.politics.guns", "talk.politics.mideast", "talk.politics.misc", "talk.religion.misc")
    val uniqueLabelsBc = sc.broadcast(uniqueLabels)

    val labelNameAndData = fileNameData
      .map { case (f, data) => (f.split("/").takeRight(2).head, data) }
      .mapPartitions {
        itrs =>
          val labelIdMap = uniqueLabelsBc.value.zipWithIndex.toMap
          itrs.map {
            case (labelName, data) => (labelIdMap(labelName), data)
          }
      }

    import sqlContext.implicits._
    labelNameAndData.toDF("id", "sentence").cache()

  }

  def createTrainPpline() = {
    val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")

    val hashingTF = new HashingTF().setInputCol("words").setOutputCol("rawFeatures")

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    //val vecAssembler = new VectorAssembler().setInputCols(Array("features")).setOutputCol("id")

    val nb = new NaiveBayes().setFeaturesCol("features").setLabelCol("id")

    new Pipeline().setStages(Array(tokenizer, hashingTF, idf, nb))
  }

  val conf = new SparkConf().setMaster("local[2]").setAppName("nb")
    .set("spark.ui.enabled", "false")
  val sc = new SparkContext(conf)
  val sqlContext = new org.apache.spark.sql.SQLContext(sc)

  val training = createRawDf("file:////root/work/test/20news-bydate-train/*")

  val ppline = createTrainPpline()
  val nbModel = ppline.fit(training)

  val test = createRawDf("file:////root/work/test/20news-bydate-test/*")
  val testRes = nbModel.transform(test)

  val evaluator = new MulticlassClassificationEvaluator().setLabelCol("id")
  val accuracy = evaluator.evaluate(testRes)
  println("Test Error = " + (1.0 - accuracy))

}

最后编辑于：2017.12.06 01:03:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,884评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,212评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,351评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,412评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,438评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,127评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,714评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,636评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,173评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,264评论 3赞 339
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,402评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,073评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,763评论 3赞 332
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,253评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,382评论 1赞 271
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,749评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,403评论 2赞 358

MLLib实践Naive Bayes

引言

Naive Bayes算法介绍

spark mllib中算法流程

20 newsgroups实践

推荐阅读更多精彩内容