爬虫入门练习(二)-抓豆瓣电影Top250

本文参考:Python爬虫(3):爬取豆瓣电影TOP250


9.23更新:修改了代码,将抓取的数据存入MongoDB数据库,再从数据库导出,结果同存入CSV文件。主要目的是练习将数据存入数据库,为以后抓取大量的数据做准备。

注意:要先启动MongoDB数据库的服务,再运行代码.
存在问题:使用MongoVUE查询数据有一些字段查了没显示出来

#coding=utf-8

import requests
from lxml import html
from pymongo import MongoClient 
import sys 
reload(sys) 
sys.setdefaultencoding( "utf-8" ) # 设置系统默认编码

client = MongoClient()   ## 建立与MongoDB数据库的连接
dbName = 'doban'  ## 数据库名字(参考数据库对象)
dbTable = 'top250'  ## 集合对象(等同sql的表格)
tab = client[dbName][dbTable]  # 等同于:tab=client['douban']['top250']  创建数据库和表格



def gethtml(url):
    info_list=[]
    for k in range(0,10):
        link=url+'%s%s%s'%('?start=',k*25,'&filter=')
        HTML=html.fromstring(requests.get(link).content)
        infos=HTML.xpath('//ol[@class="grid_view"]/li') 
        for i in infos:
            title=i.xpath('div[@class="item"]//span[@class="title"]/text()')[0]
            info=i.xpath('div[@class="item"]//div[@class="bd"]/p[1]/text()')
            info_1=info[0].replace(" ", "").replace("\n", "")   #  print info_1.encode("gbk",'ignore')  打印时,&nsp不能编码为gbk,选择忽略
            date=info[1].replace(" ", "").replace("\n", "").split('/')[0]
            country=info[1].replace(" ", "").replace("\n", "").split('/')[1]
            type=info[1].replace(" ", "").replace("\n", "").split('/')[2]
            rate=i.xpath('div[@class="item"]//div[@class="star"]/span[@class="rating_num"]/text()')[0]
            critic=i.xpath('div[@class="item"]//div[@class="star"]/span[last()]/text()')[0]
        
        
            info_list.append([title,info_1,date,country,type,rate,critic])
    return info_list
    
def getData(data_list):
    for x in data_list:
        key={'title':x[0],'director':x[1],'date':x[2],'country':x[3],'type':x[4],'rate':x[5],'comment number':x[6]}
        tab.insert(key)
    print '爬取成功!'
    
URL='https://movie.douban.com/top250'
getData(gethtml(URL))



原文:

注意的地方

1,编码问题,修改系统编码为utf-8。
2,翻页问题,for循环构造链接实现翻页
3,xpath语法问题,跳级选取节点时要用//,否则选不到
4,replace函数和split函数的运用,达到选取目标文本的目的。
5,cmd默认编码为gbk,遇到html中的&nbsp会出错,打印时要注意 # print info_1.encode("gbk",'ignore'),
6,多目标信息以列表形式添加进列表,再存入csv文件,注意csv模块的使用方法
7,代码改进之处:相比原作者存入txt文件,我选择利用csv模块,将爬取的数据存入csv文件,用excel打开,以表格形式显示,看起来更加清晰明了。
#coding=utf-8

import requests
from lxml import html
import sys 
reload(sys) 
sys.setdefaultencoding( "utf-8" ) # 设置系统默认编码


def gethtml(url):
    info_list=[]
    for k in range(0,10):
        link=url+'%s%s%s'%('?start=',k*25,'&filter=')
        HTML=html.fromstring(requests.get(link).content)
        infos=HTML.xpath('//ol[@class="grid_view"]/li') 
        for i in infos:
            title=i.xpath('div[@class="item"]//span[@class="title"]/text()')[0]
            info=i.xpath('div[@class="item"]//div[@class="bd"]/p[1]/text()')
            info_1=info[0].replace(" ", "").replace("\n", "")   #  print info_1.encode("gbk",'ignore')  打印时,&nsp不能编码为gbk,选择忽略
            date=info[1].replace(" ", "").replace("\n", "").split('/')[0]
            country=info[1].replace(" ", "").replace("\n", "").split('/')[1]
            type=info[1].replace(" ", "").replace("\n", "").split('/')[2]
            rate=i.xpath('div[@class="item"]//div[@class="star"]/span[@class="rating_num"]/text()')[0]
            critic=i.xpath('div[@class="item"]//div[@class="star"]/span[last()]/text()')[0]
        
        
            info_list.append([title,info_1,date,country,type,rate,critic])
    return info_list
        
import csv
import codecs
def getCSV(data_list):
    file_name='test.csv'
    with codecs.open(file_name,'wb') as f:
        writer=csv.writer(f)
        for q in data_list:
            writer.writerow(q)

URL='https://movie.douban.com/top250'

getCSV(gethtml(URL))


原作代码:
# coding:utf-8 
import requests from lxml import html 
import sys 
reload(sys) 
sys.setdefaultencoding( "utf-8" ) # 设置系统默认编码

k = 1 
for i in range(10): 
    url = 'https://movie.douban.com/top250?start={}&filter='.format(i*25) 
    con = requests.get(url).content 
    sel = html.fromstring(con) 

    # 所有的信息都在class属性为info的div标签里,可以先把这个节点取出来 
    for i in sel.xpath('//div[@class="info"]'): 

        # 影片名称 
        title = i.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0] 
    
        info = i.xpath('div[@class="bd"]/p[1]/text()') 
        # 导演演员信息 
        info_1 = info[0].replace(" ", "").replace("\n", "") 
        # 上映日期 
        date = info[1].replace(" ", "").replace("\n", "").split("/")[0] 
        # 制片国家 
        country = info[1].replace(" ", "").replace("\n", "").split("/")[1] 
        # 影片类型 
        geners = info[1].replace(" ", "").replace("\n", "").split("/")[2] 
        # 评分 
        rate = i.xpath('//span[@class="rating_num"]/text()')[0] 
        # 评论人数 
        comCount = i.xpath('//div[@class="star"]/span[4]/text()')[0] 

        # 打印结果看看 
        print "TOP%s" % str(k) 
        print title, info_1, rate, date, country, geners, comCount 

        # 写入文件 
        with open("top250.txt", "a") as f: 
            f.write("TOP%s\n影片名称:%s\n评分:%s %s\n上映日期:%s\n上映国家:%s\n%s\n" % (k, title, rate, comCount, date, country, info_1)) 

            f.write("==========================\n") 
    
        k += 1

爬取结果:

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,401评论 25 707
  • 可以看我的博客 lmwen.top 或者订阅我的公众号 简介有稍微接触python的人就会知道,python中...
    ayuLiao阅读 3,091评论 1 5
  • 前两天听说一个词,季节性情感障碍。妈呀,瞬间躺倒。尤其是今年,此刻,特别特别难熬。
    帅得飞起的婷哥哥阅读 233评论 0 0
  • 所有的美好,似乎仰望更能配得起它的情怀。 我遇到一个足够,足够美好的男孩。 就在刚才我去坐地铁时,我从楼梯下来,望...
    BU3001阅读 243评论 1 3
  • 总是用Webstrom和Eclipse开发,这个可以说是特别实用了,做个笔记方便查询。
    尤樊容阅读 912评论 1 2