爬虫基础系列urllib(2)

u=2998242485,1841996514&fm=27&gp=0.jpg

html页面的解码

  • 从页面中直接获取的数据是二进制形式的数据,我们平时接触到的大多是字符串形式的数据,那么就涉及到将二进制形式的数据转换成字符串形式的数据,在用Python中一些方便的地方在于“想开汽车不需要自己造轮子”,就是使用它能达到效果和目的就行。
reponse=request.urlopen(url).read().decode() #解码---(编码encode())

只需要将读取的信息decode一下就能转换成字符串形式的数据,然后用正则表达式获取。

简单的正则表达式采集数据

  • 首先引人正则表达式的包,正则表达式是内置模块 import re
  • 想采集数据首先要分析页面,获取到的二进制页面,分析想要的信息在<title>键值对中。
pat=r"<title>(.*?)</title>"
  • 完整代码
#import urllib.request
from urllib import request
import re

url=r"http://www.baidu.com/"

#发送请求.获取响应信息
reponse=request.urlopen(url).read().decode() #解码---(编码encode())
print(reponse)

pat=r"<title>(.*?)</title>"

data=re.findall(pat,reponse)


print(data)

返回的信息为:

['百度一下,你就知道']

爬虫基础系列urllib(1)
爬虫基础系列urllib(3)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 概要 64学时 3.5学分 章节安排 电子商务网站概况 HTML5+CSS3 JavaScript Node 电子...
    阿啊阿吖丁阅读 9,285评论 0 3
  • Python爬虫入门(urllib+Beautifulsoup) 本文包括:1、爬虫简单介绍2、爬虫架构三大模块3...
    廖少少阅读 9,927评论 0 6
  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,118评论 2 26
  • 常用模块 认识模块 什么是模块 什么是模块? 常见的场景:一个模块就是一个包含了python定义和声明的文件,文...
    go以恒阅读 1,987评论 0 6
  • 我这人轻易不读书,压根就不想读书,因为现在听书好方便,要读书就得认真对待,除了喜欢听书之味,我已经好几年没有摸过书...
    梨城油菜花阅读 117评论 0 0