8.pyspark.sql.window

Spark SQL和DataFrames重要的类有:

  • pyspark.sql.SQLContext: DataFrame和SQL方法的主入口
  • pyspark.sql.DataFrame: 将分布式数据集分组到指定列名的数据框中
  • pyspark.sql.Column :DataFrame中的列
  • pyspark.sql.Row: DataFrame数据的行
  • pyspark.sql.HiveContext: 访问Hive数据的主入口
  • pyspark.sql.GroupedData: 由DataFrame.groupBy()创建的聚合方法集
  • pyspark.sql.DataFrameNaFunctions: 处理丢失数据(空数据)的方法
  • pyspark.sql.DataFrameStatFunctions: 统计功能的方法
    -pyspark.sql.functions DataFrame:可用的内置函数
  • pyspark.sql.types: 可用的数据类型列表
  • pyspark.sql.Window: 用于处理窗口函数

8.class pyspark.sql.window:用于在DataFrame中定义窗口的实用函数

>>> # PARTITION BY country ORDER BY date ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW
>>> window = Window.partitionBy("country").orderBy("date").rowsBetween(-sys.maxsize, 0)

>>> # PARTITION BY country ORDER BY date RANGE BETWEEN 3 PRECEDING AND 3 FOLLOWING
>>> window = Window.orderBy("date").partitionBy("country").rangeBetween(-3, 3)

8.1.static orderBy(*cols):用定义的顺序创建一个WindowSpec。

8.2.static partitionBy(*cols):用定义的顺序创建一个WindowSpec。

引用原文

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容