PyFlink 是Apache Flink 的Python API,它允许你构建 可扩展的批处理和流式处理的应用程序,例如实时数据处理管道,大规模探索性数据分析、机器学习(ML)管道和ETL模块。如果你已经熟悉Python和它的库例如Pandas,那么PyFlink可以让你更加简单使用Flink生态系统的全部功能。
根据抽象级别的不同你可以在PyFlink中使用两种不同的 API:
- PyFlink Table API 允许你编写功能强大的关系型查询就类似在Python 使用SQL或处理表格数据 那样。
- PyFlink DataStream API 提供了对 Flink 核心模块以及状态和时间语义的较低级别的控制,可以用它来构建更为复杂的流式处理程序。
Try PyFlink
如果你对 PyFlink比较感兴趣,可以尝试下面的教程:
- PyFlink Table API 介绍
- PyFlink DataStream API 介绍
Explore PyFlink
参考文档涵盖了PyFlink两种不同API的所有细节。
- PyFlink DataStream API
- PyFlink Table API & SQL
Get Help With PyFlink
如果你陷入困境,可以查看 community support resources。值得一提的是,Apache Flink 的用户邮件列表一直被评为所有Apache项目中最活跃的项目之一,因此通过邮件列表进行求助吗,也不失为一种很棒的快速解决问题途径。