了解面向对象编程的基础之后，我们就可以利用Python中多种多样的对象。

1、存储

1）文件

磁盘以文件为单位来存储数据，数据的本质是二进制数序列

字节——每8位二进制序列为单位，对应ASCII编码的一个字符

文本——以字节为单位

打开文件：

f = open（文件名，方式）

方式——‘r’只读

——‘w’写入

——‘a’写入存在文件结尾或新建文件写入

读取文件：

文件名.读取方式

读取方式——‘read(10)’读取10个字节数据

——‘readline()’读取一行

——‘readlines()’读取所有行，储存在列表里，每个元素是一行

写入文本：

文件名.写入方式

写入方式——‘文本’直接写入文本到文件结尾

——‘文本\r\n’系统Windows下的换行符

关闭文件：

文件名.close()

2）上下文管理器

上下管理器用于规定某个对象的适用范围

with...as...结构——当隶属程序块执行结束，自动关闭文件

任何定义了__enter__()和__exit__()的对象都可用于上下文管理器

__enter__()——返回一个对象

__exit__()——结束时自动调用，其中有四个参数用于描述异常

3）pickle包

通过pickle包可以把对象保存，在存成磁盘的文件，到必要时读取

存储

①序列化对象——pickle.dumps()——将对象序列化成字节类型数据的字符串

②存入文件——用‘wb’写入——二进制的形式写入

合为一步——pick.dump(对象，文件名)——序列化对象并保存到文件里

读取

①对象必须已经定义过类

②读取对象——pickle.load(文件名)——将文件中字节类型数据反序列化成对象

3、一寸光阴

1）time包

time.clock()——UNIX系统，挂钟时间——从某个固定时间起点到现在的时间间隔

Windows，处理器时间——CPU实际运行的时间

time.sleep(10)——让程序休眠10秒

time包定义了struct_time对象：

struct_time对象将挂钟时间转换为年月日时分秒等

time.gmtime()——返回struct_time格式的UTC时间

time.localtime()——返回struct_time格式的当地时间

time.mktime(st)——将struct_time格式转换为挂钟时间

2）datetime包

date——年(year)、月(month)、日(day)、星期几(weekday)

time——时(hour)、分(minute)、秒(second)、毫秒(millisecond)

两个datetime对象可以相加、相减、比较

3）日期格式

datetime.strftime(str,format)——将含有时间信息的字符串转换为datetime类的对象

t.strftime()——将t这个datetime类的对象转换为字符串

时间信息：

%Y—年 %m—月 %d—日 %H—24小时制 %M—分 %S—秒

%A—周几 %a—简写周几 %I—12小时制 %p—上下午 %f—毫秒

3、看起来像那样的东西

1）正则表达式

正则表达式——re包——从字符串通过特定模式搜索内容

re.search(pattern,str)——搜索整个字符串，知道发现符合的子字符串

re.match(pattern,str)——从字符串第一个字符就相符

re.sub(pattern,replacement,str)——用replacement代替

re.split()——根据正则表达式分割字符串

re.findall()——搜索完将所有符合条件的字符串放在表中返回

2）写一个正则表达式

表示单个字符：

"."——任意的一个字符 "a|b"——字符a或字符b

"[afg]"——a或者f或者g的一个字符 "[0-4]"——0-4范围内的一个字符

"[a-f]"——a-f范围内的一个字符 "[^d]"——不是d的一个字符

"\s" ——一个空格 "\S"——一个非空格

"\d"——一个数字相当于[0-9] "\D"——一个非数字相当于[^0-9]

"\w"——数字或字母相当于[0-9a-zA-Z] "\W"——非数字非字母相当于[^0-9a-zA-Z]

表示多个类似字符：

"*"——重复超过0次或更多次 "+"——重复1次或超过1次

"?"——重复0次或1次 "{m}"——重复3次

“{m,n}"——重复m到n次,其他不符合

表示位置相关：

"^"——字符串的起始位置 "$"——字符串的结尾位置

3）进一步提取

m=re.search(pattern(?P<name>),str)——其中pattern后的()正是群group，可以取名字

m.group(number/‘name’)——number为0是整个搜索结果，为1是第一个群，或者寻名字

4、Python有网瘾

1）HTTP通信简介

HTTP协议为最常见的网络协议，工作方式有请求和回复

请求

GET /index.html HTTP/1.1    ——GET方法——要服务器执行的操作

      ——/index.html——资源的路径

    ——HTTP/1.1——协议的版本

Host: www.example.com      ——Host——访问的服务器地址

HTTP/1.1 200 OK             ——200——状态码，302——重新定位，404——无法找到

            ——OK——状态码

Content-type: text/plain ——type——资源类型

Content-length: 12 ——length——主体部分长度，字节为单位

Hello World!                     ——主题的文本数据

2）http.client包

http.client包用于发出HTTP请求

import http.client

conn = http.client.HTTPConnection("www.example.com")——主机地址

conn.request("GET", "/") ——请求方法和资源路径

response = conn.getresponse() ——获得回复

response.status, response.reason ——回复的状态码和状态描述

content = response.read() ——回复的主体内容

5、写一个爬虫

爬虫是指一段能自动浏览网页，并从网页上抓取我们想要的信息的程序

①需要出HTTP请求，获得内容

③用正则表达式获取想要的内容

其中内容需要转化：

1、字符串在Python中采用unicode编码；

2、对象content的类型是字节序列；

3、该网页的html采用了utf8编码；

4、通过.decode('utf8')解码为unicode编码

《Python》第5章对象带你飞

《Python》第5章对象带你飞

1、存储

1）文件

2）上下文管理器

3）pickle包

3、一寸光阴

1）time包

2）datetime包

3）日期格式

3、看起来像那样的东西

1）正则表达式

2）写一个正则表达式

3）进一步提取

4、Python有网瘾

1）HTTP通信简介

2）http.client包

5、写一个爬虫

《Python》第5章 对象带你飞

1、存储

1）文件

2）上下文管理器

3）pickle包

3、一寸光阴

1）time包

2）datetime包

3）日期格式

3、看起来像那样的东西

1）正则表达式

2）写一个正则表达式

3）进一步提取

4、Python有网瘾

1）HTTP通信简介

2）http.client包

5、写一个爬虫

《Python》第5章对象带你飞