爬虫实战1.3.6 页面解析-抓取猫眼电影排行（BS解析）

上篇我们通过一个例子介绍了一下Xpath的用法和爬虫的基本思路，这一篇我们还是承接上篇，主要介绍正则、Beautiful Soup的简单实用

1.正则表达式

首先我们来看一下正则表达式的解析方式，前面的请求什么的就不多说了，按照上篇的思路，从上往下提取，首先提取排名、电影名称、电影图片，直接上代码：

        # 排名
        movie_index_list = re.findall('<dd>.*?board-index.*?>(.*?)</i>', req_result, re.S)
        print(movie_index_list)

        # 电影名称
        movie_name_list = re.findall('<a.*?title="(.*?)".*?image-link.*?>', req_result, re.S)
        print(movie_name_list)

        # 电影图片
        movie_picture_list = re.findall('<a.*?image-link.*?data-src="(.*?)".*?', req_result, re.S)
        print(movie_picture_list)

看下结果：

['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
['霸王别姬', '霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单']
['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']

下面就是电影主演，上映时间，评分,最后的评分需要做个简单的处理，上代码：

        # 电影主演
        movie_star_list = re.findall(r'<p.*?star">(.*?)</p>', req_result, re.S)
        movie_star_list = [movie_star.strip() for movie_star in movie_star_list]
        print(movie_star_list)

        # 上映时间
        show_time_list = re.findall(r'<p.*?releasetime">(.*?)</p>', req_result, re.S)
        print(show_time_list)

        # 电影评分
        movie_grade_list = re.findall(r'<p.*?integer">(.*?)</i><i.*?fraction">(.*?)</i></p>', req_result, re.S)
        movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list]
        print(movie_grade_list)

看下结果：

['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演：周星驰,巩俐,郑佩佩', '主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演：费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演：连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演：寺田农,鹫尾真知子,龟山助清']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)', '上映时间：1953-09-02(美国)', '上映时间：1994-09-14(法国)', '上映时间：1998-04-03', '上映时间：1993-07-01(中国香港)', '上映时间：1939-12-15(美国)', '上映时间：1940-05-17(美国)', '上映时间：1993-12-15(美国)', '上映时间：1992-05-01']
['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']

下面看一下整个处理过程：

    def regular_parse(self, req_result):
        """
        正则表达式解析
        :param req_result:
        :return:
        """
        movie_info_list = []
        # 排名
        movie_index_list = re.findall(r'<dd>.*?board-index.*?>(.*?)</i>', req_result, re.S)
        print(movie_index_list)

        # 电影名称
        movie_name_list = re.findall(r'<a.*?title="(.*?)".*?image-link.*?>', req_result, re.S)
        print(movie_name_list)

        # 电影图片
        movie_picture_list = re.findall(r'<a.*?image-link.*?data-src="(.*?)".*?', req_result, re.S)
        print(movie_picture_list)

        # 电影主演
        movie_star_list = re.findall(r'<p.*?star">(.*?)</p>', req_result, re.S)
        movie_star_list = [movie_star.strip() for movie_star in movie_star_list]
        print(movie_star_list)

        # 上映时间
        show_time_list = re.findall(r'<p.*?releasetime">(.*?)</p>', req_result, re.S)
        print(show_time_list)

        # 电影评分
        movie_grade_list = re.findall(r'<p.*?integer">(.*?)</i><i.*?fraction">(.*?)</i></p>', req_result, re.S)
        movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list]
        print(movie_grade_list)
        for i in range(len(movie_index_list)):
            movie_info_dict = dict()
            movie_info_dict['movie_index'] = movie_index_list[i]
            movie_info_dict['movie_name'] = movie_name_list[i]
            movie_info_dict['movie_picture'] = movie_picture_list[i]
            movie_info_dict['movie_star'] = movie_star_list[i]
            movie_info_dict['show_time'] = show_time_list[i]
            movie_info_dict['movie_grade'] = movie_grade_list[i]
            movie_info_list.append(movie_info_dict)
        return movie_info_list

这是第一页的处理，剩余的跟上篇文章相同，就不再重复了。

2.Beautiful Soup

接下来看一下Beautiful Soup的解析方式，之前的文章中说了bs是依赖于解析器的，在这里我们还是使用lxml解析器来做
在这之前我们先装好bs

pip install bs4

同样的，还是先取排名、电影名、电影图片：

        soup = BeautifulSoup(req_result, 'lxml')
        # 排名
        movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
        print(movie_index_list)

        # 电影名称
        movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
        print(movie_name_list)

        # 电影图片
        movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
        print(movie_picture_list)

        # 电影主演
        movie_star_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="star")]
        print(movie_star_list)

看下结果：

['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
['霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单', '天空之城']
['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']

获取主演、上映时间、评分：

        # 电影主演
        movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
        print(movie_star_list)

        # 上映时间
        show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
        print(show_time_list)

        # 电影评分
        movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
        movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
        movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]

看下结果：

['主演：张国荣,张丰毅,巩俐', '主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演：周星驰,巩俐,郑佩佩', '主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演：费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演：连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演：寺田农,鹫尾真知子,龟山助清']
['上映时间：1993-07-26', '上映时间：1994-09-10(加拿大)', '上映时间：1953-09-02(美国)', '上映时间：1994-09-14(法国)', '上映时间：1998-04-03', '上映时间：1993-07-01(中国香港)', '上映时间：1939-12-15(美国)', '上映时间：1940-05-17(美国)', '上映时间：1993-12-15(美国)', '上映时间：1992-05-01']
['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']

完整方法如下：

    def bs_parse(self, req_result):
        """
        Beautiful Soup解析
        :param req_result:
        :return:
        """
        movie_info_list = []
        soup = BeautifulSoup(req_result, 'lxml')
        # 排名
        movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
        print(movie_index_list)

        # 电影名称
        movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
        print(movie_name_list)

        # 电影图片
        movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
        print(movie_picture_list)

        # 电影主演
        movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
        print(movie_star_list)

        # 上映时间
        show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
        print(show_time_list)

        # 电影评分
        movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
        movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
        movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]
        print(movie_grade_list)
        for i in range(len(movie_index_list)):
            movie_info_dict = dict()
            movie_info_dict['movie_index'] = movie_index_list[i]
            movie_info_dict['movie_name'] = movie_name_list[i]
            movie_info_dict['movie_picture'] = movie_picture_list[i]
            movie_info_dict['movie_star'] = movie_star_list[i]
            movie_info_dict['show_time'] = show_time_list[i]
            movie_info_dict['movie_grade'] = movie_grade_list[i]
            movie_info_list.append(movie_info_dict)
        return movie_info_list

1.结语

这篇主要以一个实例介绍了正则跟bs在采集中的解析方法，主要是一些比较简单的应用，在一些其他的比较复杂的页面中，根据自己的理解，感觉还是Xpath使用起来比较方便，比较清晰。

爬虫实战1.3.6 页面解析-抓取猫眼电影排行（BS解析）

爬虫实战1.3.6 页面解析-抓取猫眼电影排行（BS解析）

1.正则表达式

2.Beautiful Soup

1.结语

相关阅读更多精彩内容

友情链接更多精彩内容