10.1 什么是爬虫？

爬虫是自动化帮我们获取网页数据的程序
如果把互联网想像成一张大网，那么爬虫就是一只为我们工作的蜘蛛
它可以按照我们写好的程序，自动化地在网上猎取我们需要的猎物（数据）

from urllib.request import urlopen
my_first_spider = urlopen("https://assets.baydn.com/baydn/public/codetime/0.0.1/hello_human.html")
print(my_first_spider.read())
# 输出：
<html>
<head>
<title>Spider's Home</title>
</head>
<body>
<h1>Hello, human.</h1>

</body>
</html>

10.2 爬虫的原理

刚才说了，爬虫是自动化帮我们获取网页数据的程序。那么究竟是如何获取网页数据的？

将网络通信与打电话做一个类比：当我们想访问某个网址（URL）时，网址（URL）就类似于电话号码，而电脑、智能手机这样的客户端（client）也就类似于电话。我们通过客户端的浏览器（browser）发送访问请求（request），就好比用电话拨打电话号码。接收请求的一方叫做服务器（web server），如果服务器运行正常并且同意我们的请求，则会向客户端发送回答（response），回答的内容会放在HTML文件里。这时，浏览器又可以帮我们解析HTML文件，让它变成我们通常看到的网页的模样。

来源扇贝编程

向网址https://assets.baydn.com/baydn/public/codetime/1/scrape_py.html发送请求，查看输出

from urllib.request import urlopen
web_response = urlopen("https://assets.baydn.com/baydn/public/codetime/1/scrape_py.html")
print(web_response)
# 输出： <Response>

输出：<Response>，这代表我们成功获得了对方网址给我们的回答。但究竟回答的具体内容是什么呢？我们在代码中看到的 urllib 又是什么呢？

10.3 urllib模块

urllib 是Python 中用于获取网页数据的模块，通过 import 调用它，并让它（urllib.request）帮我们向网址发送请求，接收回答。我们刚刚得到的<Response>相当于目标网址给我们一封尚未拆封的信，而接下来要做的是用 urllib 中的 read()，来读这封信的具体内容。

from urllib.request import urlopen
web_response = urlopen("https://assets.baydn.com/baydn/public/codetime/1/scrape_py.html")
print(web_response.read())  # 这里添加.read()

10.4 HTML基本结构

HTML文件的基本组成部分是：head 和 body
head 一般存放网页的标题（title）等信息
body一般承载网页的主体信息

<head>                  #head部分开头
<title>......</title>   #该HTML的标题
</head>                 #head部分结尾
<body>                  #body部分开头
</body>                 #body部分结尾

10.5 如何查看网页HTML

将浏览器打开至目标网页，点击鼠标右键，在菜单中选中 “检查”（注：有的系统中叫做“审查元素”或“检查元素”），点击 “检查” 之后，便能在屏幕上看见当前网页的HTML结构。

image

10.6 筛选信息

定位标题

from urllib.request import urlopen
web_response = urlopen("https://web.shanbay.com/codetime/home?")
html_file = web_response.read().decode()
# 找到 "<title>" 的索引位置
start = html_file.find("<title>")
# 找到 "</title>" 的索引位置
end = html_file.find("</title>")
# 输出标题字符串
title = html_file[start+len("<title>"):end]
print(title)

10.7 re 模块

调用re模块来使用正则表达式
正则表达式：正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串
官方文档：re — Regular expression operations

re.search()筛选数据

import re
record = ["老张@小明老师","小王阿强的同学","@阿强"]
for item in record:
    if re.search("@",item):
        print(item)
# 输出：
老张@小明老师
@阿强

re.findall()将目标字符串中符合某个规则的部分都找出来，一并存在列表里

import re
record = "老张@小明老师@小王@阿强的同学@阿强"
find_at = re.findall("@",record)
print(find_at)
# 输出： ['@', '@', '@', '@']

符号匹配

^：匹配字符串的开头

import re
record = ["老张@小明老师","小王阿强的同学","@阿强"]
for item in record:
    if re.search("^@",item):
        print(item)
#输出：@阿强

$：匹配字符串结尾

email_addr = ["woxuepython@qq.com","20190401_xuexi@168.cn","python_learn.cn",\
              "aixuepython@163.com","python_good_com@hotmail.cn","python_365_cn@foxmail.com"]
for email in email_addr:
    if re.search("com$",email):
        print(email)
# 输出：
woxuepython@qq.com
aixuepython@163.com
python_365_cn@foxmail.com

.：匹配任意字符
*：表示任意次（从0到无限）
+：表示至少一次或任意次数

import re
email_addr = ["woxuepython@qq.com",
              "20190401_xuexi@168.cn",
              "python_learn.cn",
              "aixuepython@163.com",
              "python_good@hotmail.cn",
              "python_365@foxmail.com"]
for email in email_addr:
    if re.search("@.*cn",email):
        print(email)
# 输出
20190401_xuexi@168.cn
python_good@hotmail.cn

数字和字母

[0-9]代表从0至9共十个数字中的任意一个
[a-z]代表从小写a到z，26个字母中的一个
[A-Z] 代表从大写A到Z，26个字母的一个

如果规则中的字母并不多，也可以将其一个个敲出来：
比如 "[abc]" 代表符合 abc 三个字母中的一个

#输出其中首字母为 M 或者 P 的人名
import re
names = ["Joe","Jasmine","Mike","Pessilia","Pong","Sophie"]
for name in names:
    if re.search("^[MP]",name):
        print(name)
# 输出：
Mike
Pessilia
Pong

贪婪匹配原则

在默认情况下* 和+符号返回的字符串为符合条件下的最大值

print(re.findall("a.*b","aabbabaabaa"))
# 输出：['aabbabaab']

如何避免贪婪匹配？我们可以使用符号 ?

print(re.findall("a.*?b","aabbabaabaa"))
#输出：['aab', 'ab', 'aab']

10.8 爬虫详细教程实例

入门：Python爬虫详细教程：统计扇贝网站打卡数据
进阶：Python爬虫：统计扇贝单词书

Python入门：网站爬虫基础