问题-Delta文件是状态文件不能简单合并,否则可能导致状态无法恢复。状态文件多,主要是流和流join导致。
根本原因-Spark的CheckPoint里面的状态是初始执行时生成的shuffle数的目录数,继而再根据流流join每个生成4个目录。而后减少shuffle无法减少目录数。
解决方案-清除旧状态,减少shuffle数便能减少文件数。
StructuredStreaming的CheckPoint里面的Delta文件太多如何合并?文件目录数是否由shuffle数决定?
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。