在看了一些HTTP协议和Python基础语法之后,发现爬取数据并没有之前想象中那么难。
千里之行始于足下,我先定个小目标,比如爬取百度首页的Logo。
# 比如我要把百度的logo图片爬取下来,并把图片存储到本地
import requests
response = requests.get('https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/logo/bd_logo1_31bdc765.png')
content = response.content
with open('E:/爬取的数据/1.png', 'wb') as f:
f.write(content)
f.close()
首先要倒入requests库,里面包含了对网页的一些请求操作。具体我现在也不清楚,不过以后会知道的。
1、首先要知道这个图片的URL
打开百度首页,按F12审查页面元素。如下图
再选中2号红框中的百度图片时,会发现下面<img>标签被选中了,这是浏览器告诉你就是这条HTML代码来渲染的这个图片。
src属性告诉我们这个图片的URL是多少。
2、把这个URL传给requests.get()函数,得到的就是请求返回的response。
3、通过content属性来获取response的内容
4、利用open()和write()函数写入本地指定路径的文件中。
存储图片时有一点很有趣,URL中指定图片时png格式的,但是我测试保存成jpg格式也是可以打开的。