#coding:utf-8
from bs4 import BeautifulSoup
import requests
# 读取网页
# 解析网页
# 获取相关数据
# 翻页 通过取后页标签中的 a 标签
# 第一页 https://movie.douban.com/top250?start=0
# 第二页 https://movie.douban.com/top250?start=25&filter=
# 第三页 https://movie.douban.com/top250?start=50&filter=
def main(url_temp):
rep=requests.get(url_temp)
soup=BeautifulSoup(rep.text,'lxml')
ol=soup.find("ol",class_="grid_view")
li_list=ol.find_all('li')
for li in li_list:
img=li.find('img')
#print(img['alt'],img['src'])
img_src=img['src']
title=li.find("span",class_="title").text.strip()
act_info=li.find("div",class_="bd").p.get_text().strip()
star_info_all = li.find('div', class_='star').find_all('span')
mv_score =star_info_all[1].text.strip()
comments_num =star_info_all[3].text.strip()
print(title)
print(img_src)
print(act_info)
print(mv_score)
print(comments_num)
print('-' * 50)
next_span=soup.find("span",class_="next")
next_a=next_span.find('a')
next_url=None
if next_a:
next_url='https://movie.douban.com/top250?start=0'+next_a['href']
return next_url
if __name__=="__main__":
n_url="https://movie.douban.com/top250?start=0"
# 当 n_url 不是None 为真的时候就进行翻页
while n_url:
n_url = main(n_url)
【Python爬虫】Beautiful Soup豆瓣电影TOP250
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 我的第一个爬虫作品,一天完成,纪念一下! 代码如下: import requests from bs4 impor...
- 本篇内容需要大家对scrapy框架有了解,并完成了入门学习才能继续使用。 创建项目 scrape startpro...
- python爬虫学习给自己定下的第一个小目标, 加油!也希望能得到python大大们的指点, 感谢! 1. 豆瓣抓...