IO编程-文件读写

Input/Output(输入/输出)

由于程序和运行时数据是在内存中驻留，由CPU这个超快的计算核心来执行，涉及到数据交换的地方，通常是磁盘、网络等，就需要IO接口。

比如你打开浏览器，访问新浪首页，浏览器这个程序就需要通过网络IO获取新浪的网页。

浏览器首先会发送数据给新浪服务器，告诉它我想要首页的HTML，这个动作是往外发数据，叫Output;
随后新浪服务器把网页发过来，这个动作是从外面接收数据，叫Input。
所以，通常，程序完成IO操作会有Input和Output两个数据流。

当然也有只用一个的情况:

从磁盘读取文件到内存，就只有Input操作，
把数据写到磁盘文件里，就只是一个Output操作。

Stream

Stream（流）是一个很重要的概念，可以把流想象成一个水管，
数据就是水管里的水，但是只能单向流动。

Input Stream就是数据从外面（磁盘、网络）流进内存;
Output Stream就是数据从内存流到外面去。

对于浏览网页来说，浏览器和新浪服务器之间至少需要建立两根水管，才可以既能发数据，又能收数据。

同步IO和异步IO

由于CPU和内存的速度远远高于外设的速度，所以，在IO编程中，就存在速度严重不匹配的问题。
举个例子来说，比如要把100M的数据写入磁盘，CPU输出100M的数据只需要0.01秒，可是磁盘要接收这100M数据可能需要10秒，怎么办呢？

同步IO：CPU等着，也就是程序暂停执行后续代码，等100M的数据在10秒后写入磁盘，再接着往下执行
异步IO：CPU不等待，只是告诉磁盘，“您老慢慢写，不着急，我接着干别的事去了”，于是，后续代码可以立刻接着执行

一、读文件：open-read-close(必须)：with-open-read

import logging
logging.basicConfig(level=logging.INFO)
'''1
读文件：使用Python内置的open()函数，传入文件名和标示符；
标示符'r'表示读；
'''
f=open(r'data_center_test\share\h.txt','r')
'''2
文件打开成功，调用read()方法可以一次读取文件的全部内容;
Python把内容读到内存，用一个str对象表示;
'''
logging.info(f.read())
'''3
最后调用close()方法关闭文件。
文件使用完毕后必须关闭;
因为文件对象会占用操作系统的资源，并且操作系统同一时间能打开的文件数量也是有限的
'''
f.close()

'''4
由于文件读写时都有可能产生IOError，一旦出错，后面的f.close()就不会调用。
所以，为了保证无论是否出错都能正确地关闭文件，我们可以使用try ... finally来实现
'''
try:
    f = open(r'data_center_test\share\h.txt', 'r')
    print(f.read())
finally:
    if f:
        f.close()

问题：关于文件路径中转义字符问题

在路径前面加r，即保持字符原始值的意思。
open(r'data_center_test\share\h.txt', 'r')
替换为双反斜杠
open('data_center_test\\share\\h.txt', 'r')
替换为正斜杠
open('data_center_test/share/h.txt', 'r')

1、with

Python引入了with语句来自动帮我们调用close()方法：

with open(r'data_center_test\share\h.txt', 'r') as f:
    print(f.read())

这和前面的try ... finally是一样的，但是代码更佳简洁，并且不必调用f.close()方法

2、read()

read()：会一次性读取文件的全部内容；
read(size)：如果文件有10G，内存就爆了，所以，要保险起见，可以反复调用read(size)方法，每次最多读取size个字节的内容
readline()：可以每次读取一行内容；
readlines()：一次读取所有内容并按行返回list；

with open(r'data_center_test\share\h.txt', 'r') as f:
    for line in f.readlines():
        print(line.strip())

问题：python f.read()读取文件为空

可能原因1：
多次调用f.read()，第一次调用f.read()可以读取到内容，这时游标会移动到文章末尾，再次调用f.read()是获取不到内容的，可以使用f.seek(0)将游标移动到文章开头再次调用f.read()即可获取内容。
可能原因2：
在使用f.write()向文件内写入内容后立刻使用f.read()读取文件内容，这时游标也是在文件末尾的，也获取不到文本，解决方法同上。

二、二进制文件

前面讲的默认都是读取文本文件，并且是UTF-8编码的文本文件。要读取二进制文件，比如图片、视频等等，用'rb'模式打开文件即可

with open(r'data_center_test\share\1.png', 'rb') as f:
    print(f.read()) 
b'\xff\xd8\xff\xe0\x00\........... # 十六进制表示的字节

三、字符编码

1、encoding参数：要读取非UTF-8编码的文本文件，需要给open()函数传入encoding参数
2、errors参数：表示如果遇到编码错误或不规范的情况后直接忽略处理
（有些会报UnicodeDecodeError错误，因为在文本文件中可能夹杂了一些非法编码的字符）

f = open('/Users/michael/gbk.txt', 'r', encoding='gbk', errors='ignore')
f.read()

四、写文件：open-write-close(必须)：with-open-write

但是务必要调用f.close()来关闭文件。
当我们写文件时，操作系统往往不会立刻把数据写入磁盘，而是放到内存缓存起来，空闲的时候再慢慢写入
只有调用close()方法时，操作系统才保证把没有写入的数据全部写入磁盘。
忘记调用close()的后果是数据可能只写了一部分到磁盘，剩下的丢失了。
所以，还是用with语句来得保险：

with open(r"data_center_test\share\h.txt", "w") as f:
    f.write("你好呀")

以'w'模式写入文件时，如果文件已存在，会直接覆盖（相当于删掉后新写入一个文件）。
可以传入'a'以追加（append）模式写入

五、open模式

模式	描述
r	以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。
rb	以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。一般用于非文本文件如图片等。
w	打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。
wb	以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。
a	打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。
ab	以二进制格式打开一个文件用于追加。如果该文件已存在，文件指针将会放在文件的结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，创建新文件进行写入。

小结：
在Python中，文件读写是通过open()函数打开的文件对象完成的。使用with语句操作文件IO是个好习惯