1.在该网站下载spark,这里仅进行单机版安装
2.解压spak压缩包
3.运行pyspark
4.读取行数和第一行
5.读取含Python字符的行,读取第一行
6.在conf文件夹中,复制log4j的模板文件,然后在下图位置将INFO改为WARN
7.新建外部.py文件
from pyspark import SparkContext,SparkConf
conf=SparkConf().setMaster("local").setAppName("My App")
sc=SparkContext(conf=conf)
lines=sc.textFile("README.md")
print lines.count()
8.按图示运行,得到文件行数