登录注册写文章

爬虫思路——Selenium下载猫眼电影top100

爬虫思路——Selenium下载猫眼电影top100

需求：爬取猫眼top100 movie

包含内容 ['序号'， ‘电影名称’， ‘主演’， ‘上映日期’， ‘评分’]

数据保存为csv格式文档

步骤：

步骤一：需求拆解

爬取猫眼top movie, 此次实例为selenium方法爬取

包含内容，设计追中输出是一个列表嵌套字典的形式，例如：

result_lst = [ {'序号': 1, '电影名称'：XXX，‘主演’：XXX XXX， ‘上映日期’：XXXX-XX-XX， ‘评分‘: X.X},

{'序号': 2, '电影名称'：XXX，‘主演’：XXX XXX， ‘上映日期’：XXXX-XX-XX， ‘评分‘: X.X},

{'序号': 3, '电影名称'：XXX，‘主演’：XXX XXX， ‘上映日期’：XXXX-XX-XX， ‘评分‘: X.X},

...，

]

使用csv.Dictwriter() 方法将最终的数据结果写入CSV

步骤二：分析页面

最小父级标签为 dl, dl标签下每一个 dd 标签都是一个电影信息

右键查看网页源代码，Ctrl + F 查找dd 标签，发现源代码中有所有需要的信息：

步骤三：匹配最小父级标签，匹配并列子集标签、定义解析公式、获取每一页的信息

dd. text 打印结果

dd. text 可以获取所有dd 子集内的文本，可以将它们以换行符 ’\n‘ 拆分正列表元素

步骤四：翻页

第二页网页的，下一页标签

最后一页网页，没有下一页按钮：

思路：除了最后一页，之前每一页都有“下一页”这个按钮，找到并且点击，进入下一页，实现翻页

最后一页时，继续寻找"下一页" 按钮并且点击，如果找不到，捕获异常报错，并且退出翻页循环

完整代码如下：

最后输入csv文档为：

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

利用requests和正则表达式抓取猫眼电影top100
前言刚学了正则表达式，赶紧用它来练练手，以防搞忘了。这次练习的目标比较简单，就是爬取猫眼电影top100，具体包...
爱吃西瓜的番茄酱阅读 1,299评论 1赞 0
6.爬虫-Requests+正则表达式抓取猫眼电影Top100
流程：抓取单页内容：利用requests请求得到HTML页面代码，返回结果。正则表达式分析：根据HTML代码的...
王阿根阅读 564评论 0赞 0

爬虫学习（2）——猫眼电影top100爬取
原文地址：https://blog.csdn.net/weixin_41779359/article/detail...
龙鹰图腾223阅读 744评论 0赞 1
「python」爬取猫眼 TOP100 电影并以 excel 格式存储
爬取目标本文将提取猫眼电影 TOP100 排行榜的电影名称、时间、评分、图片等信息，URL 为http://ma...
田旭1阅读 1,778评论 0赞 0
Python爬虫框架Scrapy入门与实践之爬取豆瓣电影Top250榜单
前言爬虫就是请求网站并提取数据的自动化程序，其中请求，提取，自动化是爬虫的关键。Python作为一款出色的胶水语...
王奥OX阅读 3,685评论 1赞 8

友情链接更多精彩内容

赞1赞

赞赏

手机看全文