【爬虫练习】运用正则表达式爬取豆瓣电影排行

1. 实战任务：运用正则表达式爬取豆瓣电影排行

爬取网站：https://movie.douban.com/top250
爬取内容：电影排行（rank），名称（name），演员（actor），评分（score），评价（comment），引用（quote）

2 实战练习

2.1 爬虫思路

用requests库get请求爬取相关信息，加入请求头，防止被绊；
用re库对爬取的数据进行筛选（主要使用findall方法，并添加re.S修饰符）；
爬取的数据进行csv存储；
为防止被绊，代码中加入time sleep（2），每爬取一次休息2s；
由于进行的是跨页筛选，url找规律并使用循环语句，爬取信息策略封装为1个小函数，进行循环爬取。

2.2 爬虫步骤

## 利用正则表达式爬取豆瓣电影排行（rank,name，actor，score，comment，quote）
# 导入库，做好存储预备工作
import requests
import re
import time
import csv

f = open('C:/Users/home/Desktop/3.csv','w+',encoding='utf-8',newline='')
writer = csv.writer(f)
writer.writerow(['rank','name','actor','score','comment','quote'])


# 加入请求头，利用requests请求，爬取数据
headers = {
     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
 }

url = 'https://movie.douban.com/top250'

# 利用findall方法筛选所需数据,将该步骤封装为函数get_info
def get_info(url):
    res = requests.get(url, headers=headers)
    ranks = re.findall(' <em class="">(.*?)</em>',res.text,re.S)
    names = re.findall('<span class="title">(.*?)</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;(.*?)  /  (.*?)</span>',res.text,re.S)
    actors = re.findall('<p class="">.*?(.*?)&nbsp;&nbsp;&nbsp;(.*?)...<br>.',res.text,re.S)
    scores = re.findall('<span class="rating_num" property="v:average">(.*?)</span>',res.text,re.S)
    comments = re.findall('<span property="v:best" content="10.0"></span>.*?<span>(.*?)人评价</span>.*?</div>',res.text,re.S)
    quotes = re.findall('<span class="inq">(.*?)</span>',res.text,re.S)

    for rank,name,actor,score,comment,quote in zip(ranks,names,actors,scores,comments,quotes):
        writer.writerow([rank,name,actor,score,comment,quote])


# 设循环语句，循环爬取数据，每次中断2s防止被绊
if __name__ == '__main__':
   urls = ['https://movie.douban.com/top250?start={}&filter='.format(str(i)) for i in range(0,250,25)]
   for url in urls:
       get_info(url)
       time.sleep(2)

2.3 爬虫结果

豆瓣电影排行

2.4 存在的问题

上述代码基本可以获取想要的数据，但存在很多问题：

爬取数据有间断，未获取250条信息，原因在哪？
去多余行时难使用.strip()功能，提醒元组不具备该功能？
如何将电影名不同语言拆分，是在excel里相关功能执行还是python本身有此功能？
def get_info(url):出现过多次如下报错，原因在哪？

报错信息

【爬虫练习】运用正则表达式爬取豆瓣电影排行

1. 实战任务：运用正则表达式爬取豆瓣电影排行

2 实战练习

2.1 爬虫思路

2.2 爬虫步骤

2.3 爬虫结果

2.4 存在的问题

推荐阅读更多精彩内容