Python爬虫实战——豆瓣电影TOP250

参照在线课堂的教程完成的,第一次尝试。

简要说明

用Python爬取豆瓣电影TOP250的电影信息,结果存成文本形式。

查看页面元素

Python源码

#! /usr/bin/env python
#! encoding = utf-8

import requests
import codecs
from bs4 import  BeautifulSoup

DOWNLOAD_URL = 'http://movie.douban.com/top250'

HEADERS = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}

def download_page(url):
    data = requests.get(url, headers = HEADERS).content
    return data


def parse_html(html):
    soup = BeautifulSoup(html)
    movie_list_soup = soup.find('ol', attrs = {'class': 'grid_view'})
    movie_name_list = []

    for movie_li in movie_list_soup.find_all('li'):
        detail = movie_li.find('div', attrs = {'class': 'hd'})
        movie_name = detail.find('span', attrs = {'class': 'title'}).getText()
        movie_name_list.append(movie_name)

    # find the next page
    next_page = soup.find('span', attrs = {'class': 'next'}).find('a')

    # catenate the page url
    if next_page:
        return movie_name_list, DOWNLOAD_URL + next_page['href']

    return movie_name_list, None


def main():
    url = DOWNLOAD_URL

    with codecs.open('movies','wb', encoding = 'utf-8') as fp:
        while url:
            # get the page
            html = download_page(url)
            # analysize the page
            movies, url = parse_html(html)
            fp.write(u'{movies}\n'.format(movies = '\n'.join(movies)))
            # fp.write(u'{url}\n'.format(url = '\n'.join(url)))

if __name__ == '__main__':
    main()

结果显示

肖申克的救赎
这个杀手不太冷
阿甘正传
霸王别姬
美丽人生
千与千寻
辛德勒的名单
海上钢琴师
机器人总动员
盗梦空间
泰坦尼克号
三傻大闹宝莱坞
放牛班的春天
忠犬八公的故事
大话西游之大圣娶亲
龙猫
教父
乱世佳人
天堂电影院
当幸福来敲门
搏击俱乐部
楚门的世界
触不可及
指环王3:王者无敌
罗马假日
十二怒汉
天空之城
两杆大烟枪
怦然心动
海豚湾
飞屋环游记
大话西游之月光宝盒
飞越疯人院
无间道
鬼子来了
少年派的奇幻漂流
窃听风暴
蝙蝠侠:黑暗骑士
熔炉
V字仇杀队
闻香识女人
活着
天使爱美丽
美丽心灵
指环王1:魔戒再现
指环王2:双塔奇兵
教父2
哈尔的移动城堡
七宗罪
情书
死亡诗社
勇敢的心
剪刀手爱德华
美国往事
钢琴家
致命魔术
狮子王
被嫌弃的松子的一生
音乐之声
小鞋子
星际穿越
低俗小说
入殓师
蝴蝶效应
玛丽和马克思
沉默的羔羊
本杰明·巴顿奇事
黑客帝国
拯救大兵瑞恩
饮食男女
辩护人
第六感
西西里的美丽传说
大鱼
幽灵公主
射雕英雄传之东成西就
心灵捕手
让子弹飞
阳光姐妹淘
阳光灿烂的日子
上帝之城
萤火虫之墓
大闹天宫
重庆森林
春光乍泄
禁闭岛
控方证人
致命ID
甜蜜蜜
告白
加勒比海盗
爱在黎明破晓前
阿凡达
风之谷
一一
素媛
爱在日落黄昏时
驯龙高手
海洋
燃情岁月
侧耳倾听
幸福终点站
虎口脱险
超脱
猫鼠游戏
神偷奶爸
断背山
摩登时代
电锯惊魂
真爱至上
菊次郎的夏天
借东西的小人阿莉埃蒂
雨人
布达佩斯大饭店
贫民窟的百万富翁
岁月神偷
狩猎
疯狂原始人
恋恋笔记本
记忆碎片
谍影重重3
东邪西毒
穿越时空的少女
魂断蓝桥
猜火车
倩女幽魂
七武士
怪兽电力公司
穿条纹睡衣的男孩
哈利·波特与魔法石
卢旺达饭店
秒速5厘米
黑天鹅
我是山姆
末代皇帝
傲慢与偏见
完美的世界
人工智能
杀人回忆
教父3
玩具总动员3
英雄本色
雨中曲
香水
冰川时代
碧海蓝天
撞车
纵横四海
浪潮
萤火之森
红辣椒
海盗电台
喜宴
消失的爱人
可可西里
恐怖直播
追随
朗读者
战争之王
迁徙的鸟
荒野生存
梦之安魂曲
罗生门
哈利·波特与死亡圣器(下)
7号房的礼物
绿里奇迹
谍影重重
一次别离
燕尾蝶
地球上的星星
勇闯夺命岛
叫我第一名
谍影重重2
卡萨布兰卡
英国病人
喜剧之王
变脸
花样年华
时空恋旅人
阿飞正传
穆赫兰道
这个男人来自地球
E.T. 外星人
唐伯虎点秋香
魔女宅急便
两小无猜
惊魂记
曾经
上帝也疯狂
非常嫌疑犯
恐怖游轮
爱·回家
再次出发之纽约遇见你
终结者2:审判日
小森林 夏秋篇
发条橙
蝙蝠侠:黑暗骑士崛起
蓝色大门
忠犬八公物语
哪吒闹海
蝴蝶
初恋这件小事
心迷宫
爱在暹罗
末路狂花
巴黎淘气帮
源代码
勇士
黑客帝国3:矩阵革命
美国丽人
与狼共舞
夜访吸血鬼
麦兜故事
黄金三镖客
新龙门客栈
东京物语
暖暖内含光
中央车站
被解救的姜戈
达拉斯买家俱乐部
青蛇
遗愿清单
超能陆战队
无耻混蛋
罪恶之城
偷拐抢骗
城市之光
无敌破坏王
大卫·戈尔的一生
牯岭街少年杀人事件
国王的演讲
荒岛余生
未麻的部屋
血钻
寿司之神
月球
导盲犬小Q
千钧一发
角斗士
荒蛮故事
不一样的天空
廊桥遗梦
假如爱有天意
速度与激情5
我们俩
我爱你
跳出我天地
疯狂的石头
我在伊朗长大
洛城机密

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,398评论 25 707
  • // // test 符号含义 ' '没有修改 'A'添加到本地代码仓库Add 'C'冲突Conflict 'D'...
    指尖猿阅读 1,574评论 0 0
  • 串门, 亲朋相聚的时刻, 聊聊去年的生活, 说说今天的快乐。 举杯, 千言万语的思索, 化作胃中的火热, 酣畅淋漓...
    橘子洲的鱼阅读 101评论 4 2
  • 睡了一会,醒来,外面,是轰隆隆的雷声,夹杂着偶尔的闪电。 记得,睡觉前,出去,月光如水,从天空倾泻下来...
    那年凌汛阅读 211评论 4 0