python爬虫豆瓣250top电影作业


from bs4 import BeautifulSoup
import re
import os
import urllib.request, urllib.error
import urllib.parse  # 解析器
import xlwt
import sqlite3

#主函数
def main():
    baseurl="https://movie.douban.com/top250?start="
    #1.爬取网页
    datalist = getData(baseurl)
    #savepath=".\\data.xls" #excel保存方法
    dbpath="movie.db"
    #3.保存数据
    #saveData(datalist,savepath)
    save2dbPath=(datalist,dbpath)
#定义全局变量:用于筛选的几种规则
#re.compile-创建正则表达式对象,表示字符串格式(规则)
#链接格式是 <a href= “这里是链接有各种字符” >;  ()一个组;   .表示一个字符;  *表示0个或多个字符;   ?表示0次或1次
#‘’表示字符串
findLink = re.compile(r'<a href="(.*?)">')
findImgSrc=re.compile(r'<img.*src="(.*?)"',re.S) # .*表示有若干字符;re.S 让换行符包含在字符中
findTitles = re.compile(r'<span class="title">(.*)</span>')
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
findJudge = re.compile(r'<span>(\d*)人评价</span>')#\d 表示数字
findInq = re.compile(r'<span class="inq">(.*)</span>')
findBd=re.compile(r'<p class="">(.*?)</p>',re.S)



#爬取网页
def getData(baseurl):

    datalist=[]
    for i in range(0,10): #调用获取页面信息的函数
        url=baseurl+str(i*25)
        html = askURL(url) #保存获取的网页源码

        #2.逐一解析数据
        soup= BeautifulSoup(html,"html.parser")#用html.parser这个html解析器来解析html
        for item in soup.find_all('div',class_='item'):
        #查找所需内容形成列表,注意class_是避免class类别报错
        #查找div 里面属性class的内容是”docsum-content“
            data=[] #保存一部电影所有信息
            item=str(item)

            #影片详情的连接
            # 用正则表达式查找指定字符串
            link=re.findall(findLink,item)[0] #用findLink模式从item里面找符合的内容,获取第一个[0]
            data.append(link) #添加连接
            imgSrc =re.findall(findImgSrc,item)[0]
            data.append(imgSrc)#添加图片
            titles = re.findall(findTitles, item)
            # 可能有中英文名
            if (len(titles)==2):
                Ctitle=titles[0]
                data.append(Ctitle)
                Ftitle=titles[1].replace("/","")#去斜杠
                data.append(Ftitle)
            else:
                data.append(titles[0])
                data.append(' ') #注意留空
            rates = re.findall(findRating, item)[0]
            data.append(rates)
            judge = re.findall(findJudge, item)[0]
            data.append(judge)
            inq = re.findall(findInq, item) #有可能没有概述
            if len(inq)!=0:
                inq=inq[0].replace("。","")#去掉句号
                data.append(inq)
            else:
                data.append(" ")  #留空

            bd = re.findall(findBd, item)[0]
            bd=re.sub('<br(\s+)?/>(\s+)?',' ',bd)#替换不需要的成分<br/>
            bd = re.sub('/', ' ', bd) #替换/
            data.append(bd.strip())#去掉前后空格

            datalist.append(data) #把处理好一部电影的信息放入datalist

    # print(datalist)
    return datalist


#得到指定一个URL的网页内容,askURL函数调用可以时多个url被调用
def askURL(url):
    head={ #模拟浏览器头部信息,向服务器发送消息
         "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit 537.36 (KHTML, like Gecko) Chrome6 Edg/89.0.774.63"
    }
    #用户代理,表示告诉豆瓣服务器,我们是什么类型的机器,浏览器(本质是告诉浏览器,我们可以接受什么水平的文件内容)

    request=urllib.request.Request(url,headers=head) #库.对象.封装(url,头部信息),携带头部信息访问url

    html = ""#用字符串 存储访问
    try:
        response=urllib.request.urlopen(request) #发出信息后返回一个对象response包含所有网页信息
        html=response.read().decode("utf-8") #.read 方式读取
        # print(html)
    except urllib.error.URLError as e: #可能会遇到404,500等访问异常
        if hasattr(e,"code"):#hasattr(e,"code")判断e这个对象里面是否包含了code这个属性
            print(e.code)#打印错误变量
        if hasattr(e,"reason"):
            print(e.reason)#打印错误原因
    return html


#保存数据
def saveData(datalist,savepath):
    print("save...")
    workspace=xlwt.Workbook(encoding="utf-8") #创建excel
    worksheet=workspace.add_sheet("豆瓣电影250",cell_overwrite_ok=True) #创建工作表,可以覆盖输入
    col=("链接","图片链接","影片中文名","影片英文名","影片评分","影片评分人数","一句话介绍","详情")
    for i in range(0,8):
        worksheet.write(0,i,col[i]) #在第1行,沿着i列写入列名
    for j in range(0,250):
        print("第%d行"%j)
        data= datalist[j]#读取datalist 第j行
        for i in range(0,8):
            worksheet.write(j+1,i,data[i])#从第2行开始,写入i列数据
    workspace.save(savepath)# 保存


#创建数据库
#初始化数据库
def init_db(dbpath):
    #sql="" #创建数据表
    sql='''
        create table movie250 
        (
        id integer primary key autoincrement,
        info_link text,
        pic_link text,
        cname varchar,
        ename varchar,
        score numeric ,
        rated numeric ,
        instroduction text,
        info text
        )
    '''
    #create table 表格名(
    # 变量名 integer整数型 primary key主键 autoincrement自增长,
    # 变量名 text文本格式,
    # 变量名 varchar,
    # 变量名 numeric数值(可小数)
    # )
    conn=sqlite3.connect(dbpath)
    cursor=conn.cursor()#创建游标 进行操作
    cursor.execute(sql)#用cursor调用执行的sql语句
    conn.commit()#提交
    conn.close()#关闭数据库




#保存到数据库
def save2db(datalist,dbpath):
    print("....")





#函数入口
if __name__=="__main__": #当主函数执行时
    #__name__表明当前执行的程序的名字
    #如果执行的程序名name=main
    # main()#调用函数
    init_db('movie250.db')
    print("爬取完毕!")
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351

推荐阅读更多精彩内容