Python入门:网站爬虫基础

10.1 什么是爬虫?

爬虫是自动化帮我们获取网页数据的程序
如果把互联网想像成一张大网,那么爬虫就是一只为我们工作的蜘蛛
它可以按照我们写好的程序,自动化地在网上猎取我们需要的猎物(数据)

from urllib.request import urlopen
my_first_spider = urlopen("https://assets.baydn.com/baydn/public/codetime/0.0.1/hello_human.html")
print(my_first_spider.read())
# 输出:
<html>
<head>
<title>Spider's Home</title>
</head>
<body>
<h1>Hello, human.</h1>

</body>
</html>

10.2 爬虫的原理

刚才说了,爬虫是自动化帮我们获取网页数据的程序。那么究竟是如何获取网页数据的?

将网络通信与打电话做一个类比:当我们想访问某个网址(URL)时,网址(URL)就类似于电话号码,而电脑、智能手机这样的客户端(client)也就类似于电话。我们通过客户端的浏览器(browser)发送访问请求(request),就好比用电话拨打电话号码。接收请求的一方叫做服务器(web server),如果服务器运行正常并且同意我们的请求,则会向客户端发送回答(response),回答的内容会放在HTML文件里。这时,浏览器又可以帮我们解析HTML文件,让它变成我们通常看到的网页的模样。

来源扇贝编程

向网址https://assets.baydn.com/baydn/public/codetime/1/scrape_py.html发送请求,查看输出

from urllib.request import urlopen
web_response = urlopen("https://assets.baydn.com/baydn/public/codetime/1/scrape_py.html")
print(web_response)
# 输出: <Response>

输出:<Response>,这代表我们成功获得了对方网址给我们的回答。但究竟回答的具体内容是什么呢?我们在代码中看到的 urllib 又是什么呢?

10.3 urllib模块

urllib 是Python 中用于获取网页数据的模块,通过 import 调用它,并让它(urllib.request)帮我们向网址发送请求,接收回答。我们刚刚得到的<Response>相当于目标网址给我们一封尚未拆封的信,而接下来要做的是用 urllib 中的 read(),来读这封信的具体内容。

from urllib.request import urlopen
web_response = urlopen("https://assets.baydn.com/baydn/public/codetime/1/scrape_py.html")
print(web_response.read())  # 这里添加.read()

10.4 HTML基本结构

HTML文件的基本组成部分是:head 和 body
head 一般存放网页的标题(title)等信息
body一般承载网页的主体信息

<head>                  #head部分开头
<title>......</title>   #该HTML的标题
</head>                 #head部分结尾
<body>                  #body部分开头
</body>                 #body部分结尾

10.5 如何查看网页HTML

将浏览器打开至目标网页,点击鼠标右键,在菜单中选中 “检查”(注:有的系统中叫做“审查元素”或“检查元素”),点击 “检查” 之后,便能在屏幕上看见当前网页的HTML结构。

image

10.6 筛选信息

定位标题

from urllib.request import urlopen
web_response = urlopen("https://web.shanbay.com/codetime/home?")
html_file = web_response.read().decode()
# 找到 "<title>" 的索引位置
start = html_file.find("<title>")
# 找到 "</title>" 的索引位置
end = html_file.find("</title>")
# 输出标题字符串
title = html_file[start+len("<title>"):end]
print(title)

10.7 re 模块

调用re模块来使用正则表达式
正则表达式:正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串
官方文档:re — Regular expression operations

re.search()筛选数据

import re
record = ["老张@小明老师","小王阿强的同学","@阿强"]
for item in record:
    if re.search("@",item):
        print(item)
# 输出:
老张@小明老师
@阿强

re.findall()将目标字符串中符合某个规则的部分都找出来,一并存在列表里

import re
record = "老张@小明老师@小王@阿强的同学@阿强"
find_at = re.findall("@",record)
print(find_at)
# 输出: ['@', '@', '@', '@']

符号匹配

^:匹配字符串的开头

import re
record = ["老张@小明老师","小王阿强的同学","@阿强"]
for item in record:
    if re.search("^@",item):
        print(item)
#输出:@阿强

$:匹配字符串结尾

email_addr = ["woxuepython@qq.com","20190401_xuexi@168.cn","python_learn.cn",\
              "aixuepython@163.com","python_good_com@hotmail.cn","python_365_cn@foxmail.com"]
for email in email_addr:
    if re.search("com$",email):
        print(email)
# 输出:
woxuepython@qq.com
aixuepython@163.com
python_365_cn@foxmail.com

.:匹配任意字符
*:表示任意次(从0到无限)
+:表示至少一次或任意次数

import re
email_addr = ["woxuepython@qq.com",
              "20190401_xuexi@168.cn",
              "python_learn.cn",
              "aixuepython@163.com",
              "python_good@hotmail.cn",
              "python_365@foxmail.com"]
for email in email_addr:
    if re.search("@.*cn",email):
        print(email)
# 输出
20190401_xuexi@168.cn
python_good@hotmail.cn

数字和字母

[0-9]代表 从0至9共十个数字中的任意一个
[a-z]代表 从小写a到z,26个字母中的一个
[A-Z] 代表 从大写A到Z,26个字母的一个

如果规则中的字母并不多,也可以将其一个个敲出来:
比如 "[abc]" 代表符合 abc 三个字母中的一个

#输出其中首字母为 M 或者 P 的人名
import re
names = ["Joe","Jasmine","Mike","Pessilia","Pong","Sophie"]
for name in names:
    if re.search("^[MP]",name):
        print(name)
# 输出:
Mike
Pessilia
Pong

贪婪匹配原则

在默认情况下*+符号返回的字符串为符合条件下的最大值

print(re.findall("a.*b","aabbabaabaa"))
# 输出:['aabbabaab']

如何避免贪婪匹配?我们可以使用符号 ?

print(re.findall("a.*?b","aabbabaabaa"))
#输出:['aab', 'ab', 'aab']

10.8 爬虫详细教程实例

入门:Python爬虫详细教程:统计扇贝网站打卡数据
进阶:Python爬虫:统计扇贝单词书

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容