from bs4 import BeautifulSoup
import requests
def main(base_url):
# base_url='https://movie.douban.com/top250?start={}&filter='.format(start_name)
# print(base_url)
req=requests.get(base_url)
soup=BeautifulSoup(req.text,'lxml')
ol=soup.find("ol",class_="grid_view")
print(type(soup),type(ol))
li_list=ol.find_all('li')
for li in li_list:
img=li.find('img')
img_src=img['src']
title=li.find('span',class_="title").text.strip()
actor=li.find('div',class_="bd").p.get_text().strip()
star_info_all=li.find('div',class_='star').find_all('span')
mv_score=star_info_all[1].text.strip()
comment_num=star_info_all[2].text.strip()
print(title)
print(img_src)
print(actor)
print(mv_score)
print(comment_num)
print('-' * 50)
next_span=soup.find('span',class_='next')
next_a=next_span.find('a')
next_url=None #
if next_a:
next_url=next_a['href']
return 'https://movie.douban.com/top250'+next_url
if __name__=='__main__':
n_url=main('https://movie.douban.com/top250?start=0')
#page down
while n_url:
main(n_url)
抓取豆瓣网电影的例子
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 下面选了最近十年里,十位名人所做的毕业演讲。那么多的故事与经历,其实只想告诉你一件事: 面对迷茫和不确定的未来,我...
- 豆瓣提供了豆瓣开发者服务,通过其提供的豆瓣电影api v2我们可以快速抓取大量信息。 可以看到提供的接口为GET ...