Python 学习 -0·豆瓣电影Top250

Python爬取豆瓣电影Top250

想学Python了,花了一下午的时间把Python基础点学了下,发现什么都不会,不知道能干啥,想这做个小Demo,正好看到了一篇文章于是就有了下面的想法。那篇文章给了启发,谢谢博主。

豆瓣电影Top250就是这个网页,我想把他整个的爬下来。

如果有其他的语言的开发经验,就会发现,这就是一个网络请求,比如说Java,就是请求这个页面,然后通过打印即可。不过我听说好像有个就 requests 的第三方库挺不错的。用一下。

import requests

douban = 'https://movie.douban.com/top250'


def download():
    content = requests.get(douban).content
    print(content)

def main():
    download()


if __name__ == '__main__':
    main()

乱码

恩,上面这个就是一个简单的下载豆瓣电影Top250的一个页面,可是打印出来好像没有转码一样,汉字没了,没关系,听过bs4可以用来解析网页,试一下。

def parseHtml(html):
    soup = BeautifulSoup(html)
    print(soup)


def download():
    content = requests.get(douban).content
    parseHtml(content)
页面

这样就算是爬下来了,不过,我要这个没什么用啊,我想要的是Top250,有哪些电影,评分都是多少。

可是在哪?

我想到了F12,在豆瓣电影Top250按下F12,找到电影名所在的控件名,然后获取下来,同样的,找到评分控件名,然后获取。

恩,找到了,电影名在一个class=hd的div中的a标签下的第一个class名为title标签。

标签
movie_name = soup.find('span', attrs={'class': 'title'}).getText()
print(movie_name)

这样应该就行了吧,试试看,结果只有一个《肖申克的救赎》,嗯,差得不远,第一个出来了,哪其他的呢。仔细看看

集合

好像有好多的li标签,这些都是在一个 class=gird_view 的ol里的,那是不是构成了一个类似与数组的样式,那应该是先获取那个数组,然后再遍历寻找电影名,对吧。

    movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
    for movie_li in movie_list_soup.find_all('li'):
        movie_name = movie_li.find('span', attrs={'class': 'title'}).getText()
        print(movie_name)

同样的,获取评分也就没有问题了。唉,那个,每个电影好像有个推荐语,顺便也搞下来吧,反正也不费什么力气。

def parseHtml(html):
    soup = BeautifulSoup(html)
    movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
    for movie_li in movie_list_soup.find_all('li'):
        movie_name = movie_li.find('span', attrs={'class': 'title'}).getText()
        movie_star = movie_li.find('span', attrs={'class': 'rating_num'}).getText()
        movieQuote = movie_li.find('span', attrs={'class': 'inq'}).getText()
        print('{0} {1} {2}'.format(movie_name, movie_star, movieQuote))
首页

这样就完了?这才第一页,我想把所有的都搞下来,那继续吧,怎么做呢,当我把页面拉到最下面的时候,发现一页一共是25个电影那一共就有10页,那我把页码包含的地址搞下来,然后构成一个循环,剩下的就是和上面一样的结果了。等等,好像有个后页,更简单了,我每次爬取的时候顺便把后页的地址爬取下来,然后再继续刚才的就行了。

不过好像要注意一点就是,如果抓取的本身就是最后一页,那肯定没有后页了,所以要判断有没有后页才能继续,如果有继续爬取,如果没有就是在最后一页了,就退出好了。

    nextPage = soup.find('span', attrs={'class': 'next'}).find('a')
    if nextPage:
        download(download(douban + '{0}'.format(nextPage['href'])))
    else:
        exit(0)

不过,我们需要改一下了,把之前的download函数添加一个参数,放进去一个url。

def download(url):
    content = requests.get(url).content
    parseHtml(content)


def main():
    download(douban)
报错

这是什么情况,没道理啊。

仔细看看,说什么找不到getText()这个属性,什么鬼,哪里有问题,提示是获取推荐语出现了问题,不对,那怎么之前还有推荐语呢?找到了这个在《玩具总动员3》下面出现了问题,找找看,这个电影是在哪一页,下面一部电影是什么?

还好,我们刚才传入一个url,我把url打印一下,不就知道了?,最后一个打印的url是这个打开找到《玩具总动员3》下面那个,《二十二》这个好像没有推荐语,那怎么办?

缺失

仔细看一下,发现,这个电影比其他电影少了一个p标签,正好是放推荐语的,那我先判断p标签是否存在,再去找推荐语吧。嗯,就这么改。

好了,整体搞完了,总体看一下代码。

import requests
from bs4 import BeautifulSoup

douban = 'https://movie.douban.com/top250'


def parseHtml(html):
    soup = BeautifulSoup(html)
    movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
    for movie_li in movie_list_soup.find_all('li'):
        movie_name = movie_li.find('span', attrs={'class': 'title'}).getText()
        movie_star = movie_li.find('span', attrs={'class': 'rating_num'}).getText()
        quoteP = movie_li.find('p', attrs={'class': 'quote'})
        if quoteP:
            movieQuote = movie_li.find('span', attrs={'class': 'inq'}).getText()
            print('{0} {1} {2}'.format(movie_name, movie_star, movieQuote))
        else:
            print('{0} {1}'.format(movie_name, movie_star))
    nextPage = soup.find('span', attrs={'class': 'next'}).find('a')
    if nextPage:
        download(download(douban + '{0}'.format(nextPage['href'])))
    else:
        exit(0)


def download(url):
    print(url)
    content = requests.get(url).content
    parseHtml(content)


def main():
    download(douban)


if __name__ == '__main__':
    main()

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容