最近由于需要对即将上线的APP进行内测,需要上传车源图片进行测试,这个时候我就想到了二手车之家的大量车源图片,可爬取过来直接使用,于是乎就写了这个爬虫。
需要准备的库:requests,beautifulsoup
# 导入需要使用的包,requests获取页面,beautifulsoup解析页面
import requests
from bs4 import BeautifulSoup
# url是爬取的目标地址,path是需要保存的本地路径
url = 'https://www.che168.com/dealer/264907/23808458.html'
path = '//Users/huixing/pictures/che168'
res = requests.get(url)
res.encoding = 'gb2312'
html = res.text
# 解析获取到的数据
soup = BeautifulSoup(html, 'lxml')
li_list = soup.find_all('li', class_='grid-10')
# 循环li,将每一个li都爬取下来
for li in li_list:
img = li.find('img')
img_src = 'http://' + img['src2'][2:]
# 将取到的链接img_src一一访问,获取图片内容,保存到本地
data = requests.get(img_src, stream=True).content
with open(path + '/' + img_src.split('/')[-1], 'wb') as fp:
fp.write(data)
以上就是爬取并保存的思路以及代码,本次爬取在保存到本地时候遇到了很多问题,但是在攀攀老师的帮助下解决了这个问题。