本系列所记述的是一些基础知识点中平时用的比较少的方法。
一、文件的打开模式
x:,独占模式,相当于w的进阶模式,在写入文件已存在时会触发 FileExistsError 异常。
a:,附加模式,可以在文件末尾继续写入。
+:可以与其他模式联合使用,r+和w+有个重要区别,既w+会将原有文件删除然后从头开始写入,r+不会这样做。
rb:用于读取非文本的二进制数据,禁用文本相关功能。
注:1.为保证兼容性, 写入文件时最好用系统默认换行符os.linesep代替“\n"等字符。
2.readlines默认识别所有的合法换行符( '\n' 、 '\r' 和 '\r\n' ),但如将关键字参数 newline 设置为空字符串,如 open(name, newline=''),将会禁止换行;newline也可以任意指定换行符,这样readlines时就不会对其他换行符进行识别换行,但是在写入时会自动将其他换行符替换为指定的换行符。
二、文件的内容定位
使用seek方法可以更改文件开始执行位置,函数原型如下:
f.seek(offset, whence)
offset为偏移量的字节数,可以为负数;
whence是偏移的参照标准:io.SEEK_SET(0)表示相对文件开头,io.SEEK_SET(1)表示相对文件当前位置,io.SEEK_SET(2)表示相对文件末尾。
三、文件的实时更新
python通常是先将数据写入缓存,在文件关闭时将其保存到文件。
有时会遇到这样的情况:在程序运行过程中持续向文件输出,但是如果程序遇到问题突然崩溃,文件没有正常关闭,可能很多内容不会被写入到文件中,这种情况下可以考虑使用flush方法重置缓存(更新文件内容)。
需要注意的是,根据使用的操作系统和设置, flush可能出于锁定考虑而禁止其他正在运行的程序访问这个文件。
四、文件的读写操作
read:读取整个文本;
readline:每次读取一行;
readlines:读取整个文本,返回的是一个列表,每行的内容作为一个元素(包括换行符)。
写入操作与读取操作相对应。
五、文件的迭代
文件实际上是可迭代的,这意味着可在 for 循环中直接使用它们来迭代行,例如:
>>> lines = list(open('somefile.txt'))
>>> lines
['First line\n', 'Second line\n', 'Third and final line\n']
也就是说,文件读入后事实上是按行分割的可迭代对象。
六、fileinput模块
一个python的内置模块,以前还真没用过,其基本功能是逐行读入一个(或多个文件),主要方法如下:
- input([files[, inplace[, backup]]]) 帮助迭代多个输入流中的行;
- filename() 返回当前文件的名称;
- lineno() 返回(累计的)当前行号;
- filelineno() 返回在当前文件中的行号;
- isfirstline() 检查当前行是否是文件中的第一行;
- isstdin() 检查最后一行是否来自 sys.stdin;
- nextfile() 关闭当前文件并移到下一个文件;
- close() 关闭序列。
fileinput.input()方法既支持直接给定文件参数,也支持在shell等控制台中以参数的形式指定文件。
在实际应用中,fileinput.input()只读取它实际需要读取的文本部分,因此在文件较大的时候,可以用来实现延迟行迭代。例如:
import fileinput
for line in fileinput.input(filename):
process(line)
七、os模块
os是一个操作系统服务模块,写在这里是因为其子模块os.path中包含了很多有关文件路径的操作;另外os模块本身也有很多与路径目录相关的操作。
- os.sep:路径分隔符,例如windows中的“\”;
- os.pathsep:分割不同路径的分隔符,windows下为“;”,linux下为“:”;
- os.linesep:文本文件中的换行符(尽量用这个属性代替具体的换行符);
- os.path.split:返回给定路径的父目录和当前目录的相对名称,返回值是列表;
- os.path.join:使用系统默认的分隔符连接路径。