python爬虫:使用Selenium模拟浏览器

一、首先准备环境

1、window10环境下

2、Selenium最新版本

pip install Selenium

3、下载浏览器驱动

火狐浏览器驱动,其下载地址是:https://github.com/mozilla/geckodriver/releases
谷歌浏览器驱动,其下载地址是:http://chromedriver.storage.googleapis.com/index.html?path=2.33/
opera浏览器驱动,其下载地址是:https://github.com/operasoftware/operachromiumdriver/releases

下载解压后,将所在的目录添加系统的环境变量中。当然你也可以将下载下来的驱动放到python安装目录的lib目录中,因为它本身已经存在于环境变量(我就是这么干的)。

image.png

4、BeautifulSoup解析

pip install bs4

5、下载浏览器

注意:浏览器驱动一定要与浏览器对应

二、就可以开始写代码了

1、要使用selenium先需要定义一个具体browser对象,这里就定义的时候就看你电脑安装的具体浏览器和安装的哪个浏览器的驱动。这里以火狐浏览器为例:

from selenium import webdriver
# 地址是浏览器驱动文件所在的路径
browser = webdriver.Firefox(executable_path=r"C:\Python3.6.4\Lib\geckodriver.exe")

2、再模拟打开贴吧首页:

browser.get("https://tieba.baidu.com/index.html")

3、再模拟滚动条滚动到底部

# 这个是循环四次,往下翻滚四次
for i in range(1, 5):
    # 滑动鼠标到网页底部
    browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
    # 模拟用户的点击事件
    browser.find_element_by_class_name("kuMore").click()    
    time.sleep(1)

4、最后再使用BeautifulSoup,解析图片标签:

from bs4 import BeautifulSoup
html = BeautifulSoup(browser.page_source, "lxml")
imgs = html.select("#new_list li img")
# 关闭浏览器
browser.close()

5、将数据保存到数据库中

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 最近看了才大(静觅博客博主)的selenium教程,在使用过程中也遇到了不少问题,现在应该也算是入了点自动化测试的...
    GrasFish阅读 10,224评论 1 3
  • 快速入门 Selenium是一个简便的Web应用软件测试工具。Selenium的组件Selenium IDE支持录...
    python测试开发阅读 2,190评论 0 16
  • 20160918学习笔记 数据库排行榜 http://db-engines.com/en/ranking 下载并安...
    birdflying阅读 2,924评论 0 1
  • 我最爱的栀子花它蕴含的是美丽、坚韧、醇厚的生命本质。就如生机盎然的夏天,充满了未知的希望和喜悦。喜欢此花的人有感恩...
    张炳华1阅读 298评论 0 0
  • 有些工作并不是做给谁看,也不是为了让让别人说你好,只要对得起良心就好。今晚看到家长给我发的信息和孩子的日记,...
    皮_小皮阅读 188评论 0 9