1. 实战任务:运用正则表达式爬取豆瓣电影排行
- 爬取网站:https://movie.douban.com/top250
- 爬取内容:电影排行(rank),名称(name),演员(actor),评分(score),评价(comment),引用(quote)
2 实战练习
2.1 爬虫思路
- 用requests库get请求爬取相关信息,加入请求头,防止被绊;
- 用re库对爬取的数据进行筛选(主要使用findall方法,并添加re.S修饰符);
- 爬取的数据进行csv存储;
- 为防止被绊,代码中加入time sleep(2),每爬取一次休息2s;
- 由于进行的是跨页筛选,url找规律并使用循环语句,爬取信息策略封装为1个小函数,进行循环爬取。
2.2 爬虫步骤
## 利用正则表达式爬取豆瓣电影排行(rank,name,actor,score,comment,quote)
# 导入库,做好存储预备工作
import requests
import re
import time
import csv
f = open('C:/Users/home/Desktop/3.csv','w+',encoding='utf-8',newline='')
writer = csv.writer(f)
writer.writerow(['rank','name','actor','score','comment','quote'])
# 加入请求头,利用requests请求,爬取数据
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
}
url = 'https://movie.douban.com/top250'
# 利用findall方法筛选所需数据,将该步骤封装为函数get_info
def get_info(url):
res = requests.get(url, headers=headers)
ranks = re.findall(' <em class="">(.*?)</em>',res.text,re.S)
names = re.findall('<span class="title">(.*?)</span>.*?<span class="title"> / (.*?)</span>.*?<span class="other"> / (.*?) / (.*?)</span>',res.text,re.S)
actors = re.findall('<p class="">.*?(.*?) (.*?)...<br>.',res.text,re.S)
scores = re.findall('<span class="rating_num" property="v:average">(.*?)</span>',res.text,re.S)
comments = re.findall('<span property="v:best" content="10.0"></span>.*?<span>(.*?)人评价</span>.*?</div>',res.text,re.S)
quotes = re.findall('<span class="inq">(.*?)</span>',res.text,re.S)
for rank,name,actor,score,comment,quote in zip(ranks,names,actors,scores,comments,quotes):
writer.writerow([rank,name,actor,score,comment,quote])
# 设循环语句,循环爬取数据,每次中断2s防止被绊
if __name__ == '__main__':
urls = ['https://movie.douban.com/top250?start={}&filter='.format(str(i)) for i in range(0,250,25)]
for url in urls:
get_info(url)
time.sleep(2)
2.3 爬虫结果
2.4 存在的问题
上述代码基本可以获取想要的数据,但存在很多问题:
- 爬取数据有间断,未获取250条信息,原因在哪?
- 去多余行时难使用.strip()功能,提醒元组不具备该功能?
- 如何将电影名不同语言拆分,是在excel里相关功能执行还是python本身有此功能?
-
def get_info(url):出现过多次如下报错,原因在哪?