十二、bs4 – 实战– 豆瓣Top250爬虫实战(1)
爬取内容
爬取豆瓣Top250
注意事项
1、headers
2、编码
3、使用BeautifulSoup
网站:
https://movie.douban.com/top250
示例代码:
import requests
from bs4 import BeautifulSoup
headers= {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
# 获取详情页面url
defget_detail_urls(url):
resp = requests.get(url, headers=headers)
# print(resp.text)
html = resp.text
soup = BeautifulSoup(html, 'lxml')
lis = soup.find('ol',class_='grid_view').find_all('li')
detail_urls = []
for li in lis:
detail_url = li.find('a')['href']
print(detail_url)
detail_urls.append(detail_url)
return detail_urls
defmain():
url ='https://movie.douban.com/top250?start=0&filter='
#调用get_detail_urls函数
detail_urls = get_detail_urls(url)
for detail_url in detail_urls:
#解析详情页面内容
待续
if__name__ == '__main__':
main()
上一篇文章 第三章 数据解析(十一) 2019-12-21 地址:
https://www.jianshu.com/p/316f6974f6c5
下一篇文章 第三章 数据解析(十二)续 2019-12-23 地址:
https://www.jianshu.com/p/c01fdad1daae
以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。