相信这是一个常见问题:当我们从网络上保存一个文件时,如果文件名不是存粹ASCII构成的,那么存下来的文件名称很大概率是这样的。
2%E7%89%A9%E8%81%94%E7%BD%91%E5%8D%A1%E7%94%B3%E8%AF%B7%E7%99%BB%E8%AE%B0%E8%A1%A8.doc
我们可以使用一个很小的Python脚本来实现批量文件转换:
- 判断路径中是否存在这种urlencode的文件名形式;
- 将文件名逐一实现urldecode,并从utf8编码转换为合理地本地编码。
代码
#!/usr/bin/env python
import os
import string
import urllib
def main():
fl = os.listdir('.')
for f in fl:
if '%' in f:
print("url encoded filename: {}".format(f))
uf = urllib.unquote(f)
try:
nf = uf.decode('utf8').encode('gbk')
print("chinese filename: {}\r\n".format(nf))
os.rename(f, nf)
except:
print("decode error")
break
else:
continue
if __name__ == '__main__':
main()
然后将该脚本放置到自己的系统路径,或者Python lib中去即可。当然了,本地编码不一定非是gbk,要依据情况而定。可以使用命令行参数输入。
运行结果:
> py -2 fncvt_utf2gb.py
url encoded filename: %E7%89%A9%E8%81%94%E7%BD%91m2m%E9%80%9A%E9%81%93%E5%9E%8B%E4%B8%9A%E5%8A%A1%E5%90%88%E5%90%8C%EF%BC%88%E6%A8%A1%E6%9D%BF%EF%BC%89.docx
chinese filename: 物联网m2m通道型业务合同(模板).docx
url encoded filename: 2%E7%89%A9%E8%81%94%E7%BD%91%E5%8D%A1%E7%94%B3%E8%AF%B7%E7%99%BB%E8%AE%B0%E8%A1%A8.doc
chinese filename: 2物联网卡申请登记表.doc
url encoded filename: 3%E5%AE%9E%E5%90%8D%E8%AE%A4%E8%AF%81%E6%9C%8D%E5%8A%A1%E7%94%B3%E8%AF%B7%E6%8E%88%E6%9D%83%E4%B9%A6.docx
chinese filename: 3实名认证服务申请授权书.docx