Input/Output(输入/输出)
由于程序和运行时数据是在内存中驻留,由CPU这个超快的计算核心来执行,涉及到数据交换的地方,通常是磁盘、网络等,就需要IO接口。
比如你打开浏览器,访问新浪首页,浏览器这个程序就需要通过网络IO
获取新浪的网页。
- 浏览器首先会发送数据给新浪服务器,告诉它我想要首页的HTML,这个动作是往外发数据,叫Output;
- 随后新浪服务器把网页发过来,这个动作是从外面接收数据,叫Input。
- 所以,通常,程序完成IO操作会有Input和Output两个数据流。
当然也有只用一个的情况:
- 从磁盘读取文件到内存,就只有Input操作,
- 把数据写到磁盘文件里,就只是一个Output操作。
Stream
Stream(流)是一个很重要的概念,可以把流想象成一个水管,
数据就是水管里的水,但是只能单向流动。
Input Stream就是数据从外面(磁盘、网络)流进内存;
Output Stream就是数据从内存流到外面去。
对于浏览网页来说,浏览器和新浪服务器之间至少需要建立两根水管,才可以既能发数据,又能收数据。
同步IO和异步IO
由于CPU和内存的速度远远高于外设的速度,所以,在IO编程中,就存在速度严重不匹配的问题。
举个例子来说,比如要把100M的数据写入磁盘,CPU输出100M的数据只需要0.01秒,可是磁盘要接收这100M数据可能需要10秒,怎么办呢?
同步IO:CPU等着,也就是程序暂停执行后续代码,等100M的数据在10秒后写入磁盘,再接着往下执行
异步IO:CPU不等待,只是告诉磁盘,“您老慢慢写,不着急,我接着干别的事去了”,于是,后续代码可以立刻接着执行
一、读文件:open-read-close(必须):with-open-read
import logging
logging.basicConfig(level=logging.INFO)
'''1
读文件:使用Python内置的open()函数,传入文件名和标示符;
标示符'r'表示读;
'''
f=open(r'data_center_test\share\h.txt','r')
'''2
文件打开成功,调用read()方法可以一次读取文件的全部内容;
Python把内容读到内存,用一个str对象表示;
'''
logging.info(f.read())
'''3
最后调用close()方法关闭文件。
文件使用完毕后必须关闭;
因为文件对象会占用操作系统的资源,并且操作系统同一时间能打开的文件数量也是有限的
'''
f.close()
'''4
由于文件读写时都有可能产生IOError,一旦出错,后面的f.close()就不会调用。
所以,为了保证无论是否出错都能正确地关闭文件,我们可以使用try ... finally来实现
'''
try:
f = open(r'data_center_test\share\h.txt', 'r')
print(f.read())
finally:
if f:
f.close()
问题:关于文件路径中转义字符问题
- 在路径前面加
r
,即保持字符原始值的意思。
open(r'data_center_test\share\h.txt', 'r')
- 替换为双反斜杠
open('data_center_test\\share\\h.txt', 'r')
- 替换为正斜杠
open('data_center_test/share/h.txt', 'r')
1、with
Python引入了with
语句来自动帮我们调用close()方法:
with open(r'data_center_test\share\h.txt', 'r') as f:
print(f.read())
这和前面的try ... finally
是一样的,但是代码更佳简洁,并且不必调用f.close()
方法
2、read()
-
read()
:会一次性读取文件的全部内容; -
read(size)
:如果文件有10G,内存就爆了,所以,要保险起见,可以反复调用read(size)方法,每次最多读取size个字节的内容 -
readline()
:可以每次读取一行内容; -
readlines()
:一次读取所有内容并按行返回list;
with open(r'data_center_test\share\h.txt', 'r') as f:
for line in f.readlines():
print(line.strip())
问题:python f.read()读取文件为空
可能原因1:
多次调用f.read(),第一次调用f.read()可以读取到内容,这时游标会移动到文章末尾,再次调用f.read()是获取不到内容的,可以使用f.seek(0)将游标移动到文章开头再次调用f.read()即可获取内容。可能原因2:
在使用f.write()向文件内写入内容后立刻使用f.read()读取文件内容,这时游标也是在文件末尾的,也获取不到文本,解决方法同上。
二、二进制文件
前面讲的默认都是读取文本文件,并且是UTF-8编码的文本文件。要读取二进制文件,比如图片、视频等等,用'rb'模式
打开文件即可
with open(r'data_center_test\share\1.png', 'rb') as f:
print(f.read())
b'\xff\xd8\xff\xe0\x00\........... # 十六进制表示的字节
三、字符编码
1、encoding
参数:要读取非UTF-8编码的文本文件,需要给open()函数传入encoding
参数
2、errors
参数:表示如果遇到编码错误或不规范的情况后直接忽略处理
(有些会报UnicodeDecodeError错误,因为在文本文件中可能夹杂了一些非法编码的字符)
f = open('/Users/michael/gbk.txt', 'r', encoding='gbk', errors='ignore')
f.read()
四、写文件:open-write-close(必须):with-open-write
但是务必要调用f.close()来关闭文件。
当我们写文件时,操作系统往往不会立刻把数据写入磁盘,而是放到内存缓存起来,空闲的时候再慢慢写入
只有调用close()方法时,操作系统才保证把没有写入的数据全部写入磁盘。
忘记调用close()的后果是数据可能只写了一部分到磁盘,剩下的丢失了。
所以,还是用with语句来得保险:
with open(r"data_center_test\share\h.txt", "w") as f:
f.write("你好呀")
以'w'模式写入文件时,如果文件已存在,会直接覆盖(相当于删掉后新写入一个文件)。
可以传入'a'以追加(append)模式写入
五、open模式
模式 | 描述 |
---|---|
r | 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 |
rb | 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。 |
w | 打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。 |
wb | 以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件,并从开头开始编辑,即原有内容会被删除。如果该文件不存在,创建新文件。一般用于非文本文件如图片等。 |
a | 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 |
ab | 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 |
小结:
在Python中,文件读写是通过open()函数打开的文件对象完成的。使用with语句操作文件IO是个好习惯