Python用lxml库解析html并将爬取的数据存储到MySQL数据库

总的:

1.from lxml import etree
2.对html文本使用 etree.HTML(html)解析,得到Element对象
3.对Element对象使用xpath筛选(中间会穿插使用正则表达式),返回一个列表
4.本文为实战爬取豆瓣电影top250的信息,并将数据存入mysql中
5.用Navicat进行数据的可视化

实战:

  1. 导入要用到的库
    import requests
    from lxml import etree
    import re
    import pymysql
    import time

  2. 定义函数用来解析html

#建立数据库连接,(数据库中原先就应该有一个database,如果没有要先创建一个database,我这里创建的叫scraping)
conn = pymysql.connect(host='127.0.0.1', user='root', passwd='yourpasswd', db='scraping', port=3306, charset='utf8')
cursor = conn.cursor()

#头文件
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}

#定义的获取电影url的函数
def get_movie_url(url):
    html = requests.get(url,headers=headers)
    #解析html
    selector = etree.HTML(html.text)
    #利用xpath获取电影url
    movie_hrefs = selector.xpath('//div[@class="hd"]/a/@href')
    for movie_href in movie_hrefs:
        get_movie_info(movie_href)
获取的url
  1. 定义子函数用来解析每一部电影(每个url)的元素属性
def get_movie_info(url):
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)
    try:
        name = selector.xpath('//*[@id="content"]/h1/span[1]/text()')[0].strip()
        director = selector.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')[0].strip()
        actors = selector.xpath('//*[@id="info"]/span[3]/span[2]')[0]
        actor = actors.xpath('string(.)')
        style = re.findall('<span property="v:genre">(.*?)</span>',html.text,re.S)[0].strip()
        country = re.findall('<span class="pl">制片国家/地区:</span> (.*?)<br/>',html.text,re.S)[0].strip()
        release_time = re.findall('上映日期:</span>.*?>(.*?)</span>',html.text,re.S)[0].strip()
        time = re.findall('片长:</span>.*?>(.*?)</span>',html.text,re.S)[0].strip()
        score = selector.xpath('//*[@id="interest_sectl"]/div[1]/div[2]/strong/text()')[0].strip()
        #在数据库中建立表格叫doubanmovie,表中包括以上属性
        cursor.execute(
            "insert into doubanmovie (name,director,actor,style,country,release_time,time,score) values(%s,%s,%s,%s,%s,%s,%s,%s)",
            (str(name), str(director), str(actor), str(style), str(country), str(release_time), str(time), str(score)))
    except IndexError:
        pass
  1. 实现
if __name__ == '__main__':
    #获取电影榜top250,网站把排名分为10页,每页25部电影,所以用以下形式构造url
    urls = ['https://movie.douban.com/top250?start={}'.format(str(i)) for i in range(0, 250, 25)]
    for url in urls:
        get_movie_url(url)
        time.sleep(2)
    #把数据写入数据库的表中
    conn.commit()
  1. 效果
    数据列表

Navicat 是一套快速、可靠并价格相宜的数据库管理工具,

专为简化数据库的管理及降低系统管理成本而设。它的设计符合数据库管理员、开发人员及中小企业的需要。Navicat 是以直觉化的图形用户界面而建的,让你可以以安全并且简单的方式创建、组织、访问并共用信息。

Navicat目前还是一款收费软件,但是可以在网络上寻找一些破解版本,也可以找笔者要,笔者很乐意和大家分享学习经验,也希望大家多多指导笔者,共同进步!笔者微信wuzhenpingcc。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 人生苦短,我用Python。 起初,这篇文章是打算来写 XPath 的,可是后来一想,我需要的仅是 XPath 的...
    Moscow1147阅读 20,875评论 1 14
  • 深情呼唤,你不来 却成为别人的,如花美眷 铺天盖地的,你活在他人的视野 嘴角边,眼眉上,心坎儿里 我只能悄悄、艳羡...
    m末子m阅读 194评论 0 0
  • 如花的年华,似水的流年,有多少人走了又回来,如马路上哒哒的汽笛声来来回回,不休不止,躲不开的是命运的纠缠,分开了又...
    三王先生阅读 321评论 0 0
  • 人生岂能漫无目的, 平平凡凡更要争气。 碌碌无为可悲可泣, 生活哪能尽如人意。 生而为人最是幸运, 所以我们一定珍...
    郝逗阅读 651评论 0 0