爬虫基础系列urllib（2）

u=2998242485,1841996514&fm=27&gp=0.jpg

html页面的解码

从页面中直接获取的数据是二进制形式的数据，我们平时接触到的大多是字符串形式的数据，那么就涉及到将二进制形式的数据转换成字符串形式的数据，在用Python中一些方便的地方在于“想开汽车不需要自己造轮子”，就是使用它能达到效果和目的就行。

reponse=request.urlopen(url).read().decode() #解码---（编码encode()）

只需要将读取的信息decode一下就能转换成字符串形式的数据，然后用正则表达式获取。

简单的正则表达式采集数据

首先引人正则表达式的包，正则表达式是内置模块 import re
想采集数据首先要分析页面，获取到的二进制页面，分析想要的信息在<title>键值对中。

pat=r"<title>(.*?)</title>"

完整代码

#import urllib.request
from urllib import request
import re

url=r"http://www.baidu.com/"

#发送请求.获取响应信息
reponse=request.urlopen(url).read().decode() #解码---（编码encode()）
print(reponse)

pat=r"<title>(.*?)</title>"

data=re.findall(pat,reponse)


print(data)

返回的信息为：

['百度一下，你就知道']

爬虫基础系列urllib（1）
爬虫基础系列urllib（3）

最后编辑于：2019.05.07 07:18:05

爬虫基础系列urllib（2）

html页面的解码

简单的正则表达式采集数据

推荐阅读更多精彩内容