爬虫实战1.3.6 页面解析-抓取猫眼电影排行(BS解析)

上篇我们通过一个例子介绍了一下Xpath的用法和爬虫的基本思路,这一篇我们还是承接上篇,主要介绍正则、Beautiful Soup的简单实用

1.正则表达式

首先我们来看一下正则表达式的解析方式,前面的请求什么的就不多说了,按照上篇的思路,从上往下提取,首先提取排名、电影名称、电影图片,直接上代码:

        # 排名
        movie_index_list = re.findall('<dd>.*?board-index.*?>(.*?)</i>', req_result, re.S)
        print(movie_index_list)

        # 电影名称
        movie_name_list = re.findall('<a.*?title="(.*?)".*?image-link.*?>', req_result, re.S)
        print(movie_name_list)

        # 电影图片
        movie_picture_list = re.findall('<a.*?image-link.*?data-src="(.*?)".*?', req_result, re.S)
        print(movie_picture_list)

看下结果:

['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
['霸王别姬', '霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单']
['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']

下面就是电影主演,上映时间,评分,最后的评分需要做个简单的处理,上代码:

        # 电影主演
        movie_star_list = re.findall(r'<p.*?star">(.*?)</p>', req_result, re.S)
        movie_star_list = [movie_star.strip() for movie_star in movie_star_list]
        print(movie_star_list)

        # 上映时间
        show_time_list = re.findall(r'<p.*?releasetime">(.*?)</p>', req_result, re.S)
        print(show_time_list)

        # 电影评分
        movie_grade_list = re.findall(r'<p.*?integer">(.*?)</i><i.*?fraction">(.*?)</i></p>', req_result, re.S)
        movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list]
        print(movie_grade_list)

看下结果:

['主演:张国荣,张丰毅,巩俐', '主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演:周星驰,巩俐,郑佩佩', '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演:连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演:寺田农,鹫尾真知子,龟山助清']
['上映时间:1993-07-26', '上映时间:1994-09-10(加拿大)', '上映时间:1953-09-02(美国)', '上映时间:1994-09-14(法国)', '上映时间:1998-04-03', '上映时间:1993-07-01(中国香港)', '上映时间:1939-12-15(美国)', '上映时间:1940-05-17(美国)', '上映时间:1993-12-15(美国)', '上映时间:1992-05-01']
['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']

下面看一下整个处理过程:

    def regular_parse(self, req_result):
        """
        正则表达式解析
        :param req_result:
        :return:
        """
        movie_info_list = []
        # 排名
        movie_index_list = re.findall(r'<dd>.*?board-index.*?>(.*?)</i>', req_result, re.S)
        print(movie_index_list)

        # 电影名称
        movie_name_list = re.findall(r'<a.*?title="(.*?)".*?image-link.*?>', req_result, re.S)
        print(movie_name_list)

        # 电影图片
        movie_picture_list = re.findall(r'<a.*?image-link.*?data-src="(.*?)".*?', req_result, re.S)
        print(movie_picture_list)

        # 电影主演
        movie_star_list = re.findall(r'<p.*?star">(.*?)</p>', req_result, re.S)
        movie_star_list = [movie_star.strip() for movie_star in movie_star_list]
        print(movie_star_list)

        # 上映时间
        show_time_list = re.findall(r'<p.*?releasetime">(.*?)</p>', req_result, re.S)
        print(show_time_list)

        # 电影评分
        movie_grade_list = re.findall(r'<p.*?integer">(.*?)</i><i.*?fraction">(.*?)</i></p>', req_result, re.S)
        movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list]
        print(movie_grade_list)
        for i in range(len(movie_index_list)):
            movie_info_dict = dict()
            movie_info_dict['movie_index'] = movie_index_list[i]
            movie_info_dict['movie_name'] = movie_name_list[i]
            movie_info_dict['movie_picture'] = movie_picture_list[i]
            movie_info_dict['movie_star'] = movie_star_list[i]
            movie_info_dict['show_time'] = show_time_list[i]
            movie_info_dict['movie_grade'] = movie_grade_list[i]
            movie_info_list.append(movie_info_dict)
        return movie_info_list

这是第一页的处理,剩余的跟上篇文章相同,就不再重复了。

2.Beautiful Soup

接下来看一下Beautiful Soup的解析方式,之前的文章中说了bs是依赖于解析器的,在这里我们还是使用lxml解析器来做
在这之前我们先装好bs

pip install bs4

同样的,还是先取排名、电影名、电影图片:

        soup = BeautifulSoup(req_result, 'lxml')
        # 排名
        movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
        print(movie_index_list)

        # 电影名称
        movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
        print(movie_name_list)

        # 电影图片
        movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
        print(movie_picture_list)

        # 电影主演
        movie_star_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="star")]
        print(movie_star_list)

看下结果:

['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
['霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单', '天空之城']
['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']

获取主演、上映时间、评分:

        # 电影主演
        movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
        print(movie_star_list)

        # 上映时间
        show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
        print(show_time_list)

        # 电影评分
        movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
        movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
        movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]

看下结果:

['主演:张国荣,张丰毅,巩俐', '主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演:周星驰,巩俐,郑佩佩', '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演:连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演:寺田农,鹫尾真知子,龟山助清']
['上映时间:1993-07-26', '上映时间:1994-09-10(加拿大)', '上映时间:1953-09-02(美国)', '上映时间:1994-09-14(法国)', '上映时间:1998-04-03', '上映时间:1993-07-01(中国香港)', '上映时间:1939-12-15(美国)', '上映时间:1940-05-17(美国)', '上映时间:1993-12-15(美国)', '上映时间:1992-05-01']
['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']

完整方法如下:

    def bs_parse(self, req_result):
        """
        Beautiful Soup解析
        :param req_result:
        :return:
        """
        movie_info_list = []
        soup = BeautifulSoup(req_result, 'lxml')
        # 排名
        movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
        print(movie_index_list)

        # 电影名称
        movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
        print(movie_name_list)

        # 电影图片
        movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
        print(movie_picture_list)

        # 电影主演
        movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
        print(movie_star_list)

        # 上映时间
        show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
        print(show_time_list)

        # 电影评分
        movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
        movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
        movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]
        print(movie_grade_list)
        for i in range(len(movie_index_list)):
            movie_info_dict = dict()
            movie_info_dict['movie_index'] = movie_index_list[i]
            movie_info_dict['movie_name'] = movie_name_list[i]
            movie_info_dict['movie_picture'] = movie_picture_list[i]
            movie_info_dict['movie_star'] = movie_star_list[i]
            movie_info_dict['show_time'] = show_time_list[i]
            movie_info_dict['movie_grade'] = movie_grade_list[i]
            movie_info_list.append(movie_info_dict)
        return movie_info_list

1.结语

这篇主要以一个实例介绍了正则跟bs在采集中的解析方法,主要是一些比较简单的应用,在一些其他的比较复杂的页面中,根据自己的理解,感觉还是Xpath使用起来比较方便,比较清晰。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,104评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,816评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,697评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,836评论 1 298
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,851评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,441评论 1 310
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,992评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,899评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,457评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,529评论 3 341
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,664评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,346评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,025评论 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,511评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,611评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,081评论 3 377
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,675评论 2 359

推荐阅读更多精彩内容