#coding=UTF-8
import urllib2
from bs4 import BeautifulSoup
# https://book.douban.com/top250?start=
time=0
sum=25
while time<=225:
times=str(time)
url="https://book.douban.com/top250?start="+times
req = urllib2.urlopen(url)
content = req.read()
soup=BeautifulSoup(content,"html.parser")
print "----------page=" + str(sum/25) + "-----------"
for link in soup.find_all('div',{"class":"pl2"}):
for text in link.find_all("a"):
for none in text.stripped_strings:
print none
sum=sum+1
time=time+25
print sum-25
豆瓣Top250
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 最近学习go,就找了一个例子练习【go语言爬虫】go语言爬取豆瓣电影top250,思路大概就是获取网页,然后根...