Pyspark读取大文件的一个坑

最好把文件分割到10g以下，每次读取一个，否则会自动truncate，而且还不告诉你。400g的文件我一次性读入实测只有100多g读进去了，造成结果严重错误。当然应该跟memory有关系，但我已经设置得很大了，还是出现问题，最后选择分割成40个小文件。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python 文件读写小结以及如何读取大文件
1. 读文件打开一个文件用 open() 方法(open()返回一个文件对象，它是可迭代的)： python...
xingzai阅读 3,693评论 0赞 0
python 读取大文件,避免内存溢出
####python读取大文件最近在学习python的过程中接触到了python对文件的读取。python读取文...
程序里的小仙女阅读 7,876评论 0赞 12

PHP学习笔记-在两个大文件中找出相同的记录
问题给定两个文件A和B，分别有x，y行数据, 其中(x， y均大于10亿)，设备内存限制100M，该如何找出其...
赵客缦胡缨v吴钩霜雪明阅读 3,490评论 0赞 5
PHP学习笔记-在两个大文件中找出相同的记录
引言给定a，b两个文件, 分别有x，y行数据, 其中(x, y均大于10亿), 机器内存限制100M，该如何找出...
赵客缦胡缨v吴钩霜雪明阅读 3,085评论 1赞 8
linux下的split 命令（将一个大文件根据行数平均分成若干个小文件）
将一个大文件分成若干个小文件方法例如将一个BLM.txt文件分成前缀为 BLM_ 的1000个小文件，后缀为系数...
程序员八阿哥阅读 3,644评论 0赞 1

赞1赞

赞赏

手机看全文