Python 学习 -0·豆瓣电影Top250

Python爬取豆瓣电影Top250

想学Python了，花了一下午的时间把Python基础点学了下，发现什么都不会，不知道能干啥，想这做个小Demo，正好看到了一篇文章于是就有了下面的想法。那篇文章给了启发，谢谢博主。

豆瓣电影Top250就是这个网页，我想把他整个的爬下来。

如果有其他的语言的开发经验，就会发现，这就是一个网络请求，比如说Java，就是请求这个页面，然后通过打印即可。不过我听说好像有个就 requests 的第三方库挺不错的。用一下。

import requests

douban = 'https://movie.douban.com/top250'


def download():
    content = requests.get(douban).content
    print(content)

def main():
    download()


if __name__ == '__main__':
    main()

乱码

恩，上面这个就是一个简单的下载豆瓣电影Top250的一个页面，可是打印出来好像没有转码一样，汉字没了，没关系，听过bs4可以用来解析网页，试一下。

def parseHtml(html):
    soup = BeautifulSoup(html)
    print(soup)


def download():
    content = requests.get(douban).content
    parseHtml(content)

页面

这样就算是爬下来了，不过，我要这个没什么用啊，我想要的是Top250，有哪些电影，评分都是多少。

可是在哪？

我想到了F12，在豆瓣电影Top250按下F12，找到电影名所在的控件名，然后获取下来，同样的，找到评分控件名，然后获取。

恩，找到了，电影名在一个class=hd的div中的a标签下的第一个class名为title标签。

标签

movie_name = soup.find('span', attrs={'class': 'title'}).getText()
print(movie_name)

这样应该就行了吧，试试看，结果只有一个《肖申克的救赎》，嗯，差得不远，第一个出来了，哪其他的呢。仔细看看

集合

好像有好多的li标签，这些都是在一个 class=gird_view 的ol里的，那是不是构成了一个类似与数组的样式，那应该是先获取那个数组，然后再遍历寻找电影名，对吧。

    movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
    for movie_li in movie_list_soup.find_all('li'):
        movie_name = movie_li.find('span', attrs={'class': 'title'}).getText()
        print(movie_name)

同样的，获取评分也就没有问题了。唉，那个，每个电影好像有个推荐语，顺便也搞下来吧，反正也不费什么力气。

def parseHtml(html):
    soup = BeautifulSoup(html)
    movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
    for movie_li in movie_list_soup.find_all('li'):
        movie_name = movie_li.find('span', attrs={'class': 'title'}).getText()
        movie_star = movie_li.find('span', attrs={'class': 'rating_num'}).getText()
        movieQuote = movie_li.find('span', attrs={'class': 'inq'}).getText()
        print('{0} {1} {2}'.format(movie_name, movie_star, movieQuote))

首页

这样就完了？这才第一页，我想把所有的都搞下来，那继续吧，怎么做呢，当我把页面拉到最下面的时候，发现一页一共是25个电影那一共就有10页，那我把页码包含的地址搞下来，然后构成一个循环，剩下的就是和上面一样的结果了。等等，好像有个后页，更简单了，我每次爬取的时候顺便把后页的地址爬取下来，然后再继续刚才的就行了。

不过好像要注意一点就是，如果抓取的本身就是最后一页，那肯定没有后页了，所以要判断有没有后页才能继续，如果有继续爬取，如果没有就是在最后一页了，就退出好了。

    nextPage = soup.find('span', attrs={'class': 'next'}).find('a')
    if nextPage:
        download(download(douban + '{0}'.format(nextPage['href'])))
    else:
        exit(0)

不过，我们需要改一下了，把之前的download函数添加一个参数，放进去一个url。

def download(url):
    content = requests.get(url).content
    parseHtml(content)


def main():
    download(douban)

报错

这是什么情况，没道理啊。

仔细看看，说什么找不到getText()这个属性，什么鬼，哪里有问题，提示是获取推荐语出现了问题，不对，那怎么之前还有推荐语呢？找到了这个在《玩具总动员3》下面出现了问题，找找看，这个电影是在哪一页，下面一部电影是什么？

还好，我们刚才传入一个url，我把url打印一下，不就知道了？，最后一个打印的url是这个打开找到《玩具总动员3》下面那个，《二十二》这个好像没有推荐语，那怎么办？

缺失

仔细看一下，发现，这个电影比其他电影少了一个p标签，正好是放推荐语的，那我先判断p标签是否存在，再去找推荐语吧。嗯，就这么改。

好了，整体搞完了，总体看一下代码。

import requests
from bs4 import BeautifulSoup

douban = 'https://movie.douban.com/top250'


def parseHtml(html):
    soup = BeautifulSoup(html)
    movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
    for movie_li in movie_list_soup.find_all('li'):
        movie_name = movie_li.find('span', attrs={'class': 'title'}).getText()
        movie_star = movie_li.find('span', attrs={'class': 'rating_num'}).getText()
        quoteP = movie_li.find('p', attrs={'class': 'quote'})
        if quoteP:
            movieQuote = movie_li.find('span', attrs={'class': 'inq'}).getText()
            print('{0} {1} {2}'.format(movie_name, movie_star, movieQuote))
        else:
            print('{0} {1}'.format(movie_name, movie_star))
    nextPage = soup.find('span', attrs={'class': 'next'}).find('a')
    if nextPage:
        download(download(douban + '{0}'.format(nextPage['href'])))
    else:
        exit(0)


def download(url):
    print(url)
    content = requests.get(url).content
    parseHtml(content)


def main():
    download(douban)


if __name__ == '__main__':
    main()

最后编辑于：2017.12.10 19:14:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,470评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,393评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,577评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,176评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,189评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,155评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,041评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,903评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,319评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,539评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,703评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,417评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,013评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,664评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,818评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,711评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,601评论 2赞 353

Python 学习 -0·豆瓣电影Top250

推荐阅读更多精彩内容