登录注册写文章

pyspark类库总结

pyspark类库总结

内容摘入自<<Python大数据分析从入门到精通>>

附书源码下载地址

更多信息https://blue-shadow.top/

Pyspark是Apache Spark的Python应用程序编程接口(API)。Pyspark包括一组公共类、2个模块SQL模块和流数据模块；2个包Mllib和ML用于机器学习，如下图所示。

13-10.png

PySpark核心类说明

Pyspark核心类由公共类、SQL模块和流模块的6个子集类组成。这些类表示核心的Pyspark功能，如下表所示。

类型	类名
公共类	SparkContext
公共类	RDD
SQL模块	SparkSession
SQL模块	DataFrame
流数据模块	StreamingContext
流数据模块	DStream

PySpark公共类说明。

在Pyspark中有8个公共类，分别是SparkContext、RDD、Broadcast、Accumulator、 SparkConf、SparkFiles、StorageLevel和TaskContext，说明如下表所示。

类名	说明
Accumulator	一个只加操作共享变量，在任务只能增加值。
Broadcast	广播变量，可用于跨任务复用
RDD	弹性分布式数据集，Spark中基础编程抽象
SparkConf	用于Spark应用程序的参数配置
SparkContext	Spark应用程序的主要入口
SparkFiles	提供对文件操作的相关功能
StorageLevel	用于数据存储级别的设置
TaskContext	可以提供关于当前运行任务的信息

PySpark SQL模块说明

SQL模块包含了10个类，提供了类型、配置、DataFrames和许多其他功能的SQL函数和方法，具体如下表所示。

类名	说明
SparkSession	用于操作DataFrame的入口点
Column	用来表示DataFrame中的列
Row	用来表示DataFrame中的行
GroupedData	用于提供DataFrame中的汇总功能
Types	定义DataFrame中的数据类型
Functions	提供丰富常用的功能，如数学工具，日期计算，数据转换等
Window	提供窗口函数功能
DataFrame	用于创建DataFrame对象
DataFrameNaFunctions	用于处理DataFrame中的null值
DataFrameStatFunctions	用于统计汇总DataFrame中的数据

PySpark流数据模块说明。

流数据模块包含3个主要的类StreamingContext、Dstream、StreamingListener。也特别提供针对了Flume、Kafka、Kinesis流数据处理的类，但这里只对前3个类说明。如下表所示。

类名	说明
StreamingContext	用于处理Spark Streaming应用的入口
DStream	Spark Streaming的基本抽象，DStream是一个连续的数据流
StreamingListener	对Streaming数据流事件监控和处理

最后编辑于：2020.10.11 16:23:22

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

pySpark 中文API (2)
pyspark.sql模块模块上下文 Spark SQL和DataFrames的重要类： pyspark.sql...
mpro阅读 9,537评论 0赞 13
Spark Python API Docs(part two)
pyspark.sql module Module context Spark SQL和DataFrames中的重...
盗梦者_56f2阅读 5,512评论 0赞 19
spark 学习笔记
Spark学习笔记 Data Source->Kafka->Spark Streaming->Parquet->S...
哎哟喂喽阅读 6,702评论 0赞 51
spark 基础知识整理（四）- spark streaming专题
一、概述 Spark Streaming是基于Core Spark API的可扩展，高吞吐量，并具有容错能力的用于...
Graceleeman阅读 4,614评论 0赞 5
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark S...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理...
葡萄喃喃呓语阅读 3,218评论 0赞 23

7赞8赞

赞赏

手机看全文