python 使用selenium模块爬取同一个url下不同页的内容（浏览器模拟人工翻页）

页面翻页，下一页可能是一个新的url

也有可能是用js进行页面跳转，url不变，解决方法是实现浏览器模拟人工翻页

目标：爬取同一个url下不同页的数据（上述第二种情况）

url:http://www.gx211.com/collegemanage/search.aspx?id=1&xxcity=1

中国高校之窗，我要爬取北京市所有的学校列表，共有四页数据，四页都是同一个url。

部分页面如图：

[图片上传中...(image.png-406cd5-1629335415476-0)]

image

找到“下一页”按钮的源码，确认是用js进行的跳转。

image

工具：

selenium
pyquery
火狐浏览器

** 代码：**

from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from pyquery import PyQuery as pq

#
# 爬取北京市所有的学校
#

browser = webdriver.Firefox()  # 创建一个浏览器对象,这里还可以使用chrome等浏览器
try:
    BJuniv = []
    browser.get('http://www.gx211.com/collegemanage/search.aspx?id=1&xxcity=1') # 获取并打开url
    for r in range(4):
        html = browser.page_source  # 获取html页面
        doc = pq(html)              # 解析html
        table = doc('.content tbody')  # 定位到表格
        table.find('script').remove()  # 除去script标签

        list_cont = table('tr').items()  # 获取tr标签列表
        for i in list_cont:
            univ = (i.text()).split()  # 获取每个tr标签中的文本信息，返回一个列表
            print(univ)
            BJuniv.append(univ)
        nextpagebutton = browser.find_element_by_xpath('//*[@id="Lk_Down"]')  # 定位到“下一页”按钮
        nextpagebutton.click()  # 模拟点击下一页
        wait = WebDriverWait(browser, 10)  # 浏览器等待10s

finally:
    browser.close()  # 关闭浏览器
    with open("北京市所有大学.txt", "wt", encoding='utf8') as out_file:  # 存储为txt格式
        out_file.write('全国各省学校名单:\n\n')
        for u in BJuniv:
            out_file.write(str(u) + '\n')

运行过程：自动打开浏览器，输入url，获取页面，点击下一页，重复直到循环结束。（过程看不到很细致的，跳转比较快）

运行结果（部分）：

image

最后编辑于：2021.08.19 09:11:23

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python 使用selenium模块爬取同一个url下不同页的内容（浏览器模拟人工翻页）

python 使用selenium模块爬取同一个url下不同页的内容（浏览器模拟人工翻页）

相关阅读更多精彩内容

友情链接更多精彩内容