《Spark快速大数据分析》书中一个例子
功能是把文本每行分割成单词组,并且去掉空行
val input = sc.textFile("input.txt")
val tokenized = input.map(line=>line.split(" ").filter(words=>words.size>0)
上面操作咋看好像没有问题,但是运行不能去除空行,原因出在split函数
scala> "".split(" ")
res50: Array[String] = Array("")
scala> "".split(" ").size
res51: Int = 1
空行""分割后得到Array("")size是1不是0,这样就不能去除空行的目的,只要把filter