Python获取豆瓣Top250电影

豆瓣已经列出了评分排行前250的电影,我需要做的,只是用Python编写一个非常简单的程序,获得这些电影对应的「链接」和「标题」,然后打印出来即可。

运行结果

运行结果.jpg

编码思路

用爬虫爬取给定初始链接的信息,然后用正则表达式筛选自己需要的信息就好了。主要是编写需要重复调用的函数,然后再重复调用即可。

源码

#coding:utf-8
#--------------------------------------------------
#   程序:获取豆瓣top250电影
#   作者:lazyboy
#   博客:http://blog.lazyboy.co/
#   日期:2014-12-20
#   语言:Python 2.7
#--------------------------------------------------
import requests,re
# 初始链接
url = 'http://movie.douban.com/top250'
# 函数,获得电影链接和标题
def getlists(u):
    links = []
    titles = []
    r = requests.get(u)
    if r.status_code == 200:
        t = r.content
        p = re.compile('(?<=<ol\sclass="grid_view">)(.|\n)+?(?=</ol>)')
        m = p.search(t)
        if m:
            alllists = m.group()
            p2 = re.compile('(?<=</li>)\n.+?(?=<li>)')
            m2 = p2.split(alllists)
            p3 = re.compile('(?<=href=").+?(?=")')
            p4 = re.compile('(?<=class="title">).+?(?=</span>)')
            for i in range(0,len(m2)):
                m3 = p3.search(m2[i])
                m4 = p4.search(m2[i])
                if m3 and m4:
                    links.append(m3.group())
                    titles.append(m4.group())
            return (links,titles)
# 函数,获得下一页网页链接
def nexturl(u):
    r = requests.get(u)
    if r.status_code == 200:
        t = r.content
        p = re.compile('(?<=rel="next"\shref=").+?(?=")')
        m = p.search(t)
        if m:
            return 'http://movie.douban.com/top250' + m.group()
l,t = getlists(url)
# 当存在下一页链接时,运行
while nexturl(url):
    url = nexturl(url)
    a,b = getlists(url)
    l,t = l+a,t+b
# 最终链接保存在数组l,标题保存在数组t

# 按照给定格式打印出来
for i in range(0,len(l)):
    print '%s. [%s](%s)' % (str(i+1),t[i].decode('utf-8').encode('gbk'),l[i])

知识点拓展

  1. Python requests的安装与简单运用
  2. Python正则表达式指南
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 14,381评论 6 28
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,464评论 19 139
  • -(void)createWeekBtn { _weekAry =@[@"周一",@"周二",@"周三",@"周四...
    Kloar阅读 3,106评论 0 0
  • 无趣乏味的自己, 我身上有很多毛病,我自己有的察觉到了,有的没有。 我不喜欢刷牙,我不喜欢运动。 短视,鼠目寸光。...
    井底的动物阅读 1,521评论 0 0
  • 和好友相聚总是让人开心又幸福,周末的早晨,享受着赖床的感觉,东方发消息说,她和对象两个人过来找我,还说带我散...
    春夏AI阅读 2,600评论 0 1