10.1 什么是爬虫?
爬虫是自动化帮我们获取网页数据的程序
如果把互联网想像成一张大网,那么爬虫就是一只为我们工作的蜘蛛
它可以按照我们写好的程序,自动化地在网上猎取我们需要的猎物(数据)
from urllib.request import urlopen
my_first_spider = urlopen("https://assets.baydn.com/baydn/public/codetime/0.0.1/hello_human.html")
print(my_first_spider.read())
# 输出:
<html>
<head>
<title>Spider's Home</title>
</head>
<body>
<h1>Hello, human.</h1>
</body>
</html>
10.2 爬虫的原理
刚才说了,爬虫是自动化帮我们获取网页数据的程序。那么究竟是如何获取网页数据的?
将网络通信与打电话做一个类比:当我们想访问某个网址(URL)时,网址(URL)就类似于电话号码,而电脑、智能手机这样的客户端(client)也就类似于电话。我们通过客户端的浏览器(browser)发送访问请求(request),就好比用电话拨打电话号码。接收请求的一方叫做服务器(web server),如果服务器运行正常并且同意我们的请求,则会向客户端发送回答(response),回答的内容会放在HTML文件里。这时,浏览器又可以帮我们解析HTML文件,让它变成我们通常看到的网页的模样。
向网址https://assets.baydn.com/baydn/public/codetime/1/scrape_py.html发送请求,查看输出
from urllib.request import urlopen
web_response = urlopen("https://assets.baydn.com/baydn/public/codetime/1/scrape_py.html")
print(web_response)
# 输出: <Response>
输出:<Response>
,这代表我们成功获得了对方网址给我们的回答。但究竟回答的具体内容是什么呢?我们在代码中看到的 urllib 又是什么呢?
10.3 urllib模块
urllib 是Python 中用于获取网页数据的模块,通过 import 调用它,并让它(urllib.request)帮我们向网址发送请求,接收回答。我们刚刚得到的<Response>相当于目标网址给我们一封尚未拆封的信,而接下来要做的是用 urllib 中的 read(),来读这封信的具体内容。
from urllib.request import urlopen
web_response = urlopen("https://assets.baydn.com/baydn/public/codetime/1/scrape_py.html")
print(web_response.read()) # 这里添加.read()
10.4 HTML基本结构
HTML文件的基本组成部分是:head 和 body
head 一般存放网页的标题(title)等信息
body一般承载网页的主体信息
<head> #head部分开头
<title>......</title> #该HTML的标题
</head> #head部分结尾
<body> #body部分开头
</body> #body部分结尾
10.5 如何查看网页HTML
将浏览器打开至目标网页,点击鼠标右键,在菜单中选中 “检查”(注:有的系统中叫做“审查元素”或“检查元素”),点击 “检查” 之后,便能在屏幕上看见当前网页的HTML结构。
10.6 筛选信息
定位标题
from urllib.request import urlopen
web_response = urlopen("https://web.shanbay.com/codetime/home?")
html_file = web_response.read().decode()
# 找到 "<title>" 的索引位置
start = html_file.find("<title>")
# 找到 "</title>" 的索引位置
end = html_file.find("</title>")
# 输出标题字符串
title = html_file[start+len("<title>"):end]
print(title)
10.7 re 模块
调用re
模块来使用正则表达式
正则表达式:正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串
官方文档:re — Regular expression operations
re.search()
筛选数据
import re
record = ["老张@小明老师","小王阿强的同学","@阿强"]
for item in record:
if re.search("@",item):
print(item)
# 输出:
老张@小明老师
@阿强
re.findall()
将目标字符串中符合某个规则的部分都找出来,一并存在列表里
import re
record = "老张@小明老师@小王@阿强的同学@阿强"
find_at = re.findall("@",record)
print(find_at)
# 输出: ['@', '@', '@', '@']
符号匹配
^
:匹配字符串的开头
import re
record = ["老张@小明老师","小王阿强的同学","@阿强"]
for item in record:
if re.search("^@",item):
print(item)
#输出:@阿强
$
:匹配字符串结尾
email_addr = ["woxuepython@qq.com","20190401_xuexi@168.cn","python_learn.cn",\
"aixuepython@163.com","python_good_com@hotmail.cn","python_365_cn@foxmail.com"]
for email in email_addr:
if re.search("com$",email):
print(email)
# 输出:
woxuepython@qq.com
aixuepython@163.com
python_365_cn@foxmail.com
.
:匹配任意字符
*
:表示任意次(从0到无限)
+
:表示至少一次或任意次数
import re
email_addr = ["woxuepython@qq.com",
"20190401_xuexi@168.cn",
"python_learn.cn",
"aixuepython@163.com",
"python_good@hotmail.cn",
"python_365@foxmail.com"]
for email in email_addr:
if re.search("@.*cn",email):
print(email)
# 输出
20190401_xuexi@168.cn
python_good@hotmail.cn
数字和字母
[0-9]
代表 从0至9共十个数字中的任意一个
[a-z]
代表 从小写a到z,26个字母中的一个
[A-Z]
代表 从大写A到Z,26个字母的一个
如果规则中的字母并不多,也可以将其一个个敲出来:
比如 "[abc]" 代表符合 abc 三个字母中的一个
#输出其中首字母为 M 或者 P 的人名
import re
names = ["Joe","Jasmine","Mike","Pessilia","Pong","Sophie"]
for name in names:
if re.search("^[MP]",name):
print(name)
# 输出:
Mike
Pessilia
Pong
贪婪匹配原则
在默认情况下*
和+
符号返回的字符串为符合条件下的最大值
print(re.findall("a.*b","aabbabaabaa"))
# 输出:['aabbabaab']
如何避免贪婪匹配?我们可以使用符号 ?
print(re.findall("a.*?b","aabbabaabaa"))
#输出:['aab', 'ab', 'aab']