总结:常用API的练习
1.parallelizePairs的入参中,如果有2个Tuple2的KEY一样,则生成RDD时只有一个,VALUE为位置靠后的元素值。
2.mapToPair和flatMapToPair的区别:前者将每个元素处理成Tuple2,后者处理成Iterator。
3.测试常用方法collectAsMap(),若有KEY相同的TUPLE2,只显示最后一个KV对。
SPARK支持的主流的文件格式
格式名称 结构化 备注
文本文件 否 一行就是一条纪录
JSON 半结构化 -
CSV 是 基于文本的表格
SequenceFiles 是 键值对数据,常见的HADOOP文件格式
parquet 半结构化 列族式存储