最近用jupyter处理一些数据集遇到本地文件大于25M无法上传的问题,因此在jupyter上处理前需要将文件先压缩,然后再解压读取。常见的几种文件压缩形式有zip, rar等,Python中也有相应的库处理。
压缩为zip文件
import zipfile
f = zipfile.ZipFile('目标文件地址','w',zipfile.ZIP_DEFLATED)
f.write(filename,file_url)
f.close()
解压zip文件
f = zipfile.ZipFile("压缩文件地址",'r')
for file in f.namelist():
f.extract(file,"解压缩存放地址")
如果是rar文件解压,也是类似,同样的还是要安装相应的库
from unrar import rarfile
file = rarfile.RarFile('压缩文件路径')
file.extractall('解压到目标文件夹路径')