解决chromedriver + mitmproxy返回www.w3.org/1999/xhtml空页面

问题:爬取某网站需要用到 chromedriver + mitmproxy , 但是有个致命的问题就是加入headless和proxy参数后,代理一直会出错,其实就是证书的问题。

解决:根据以上问题,进行了很多搜索,测试。 但是有很多版本的答案其实都是不能用的,问题还是没有得到解决。最终在chromium上找到了一个标准答案。下面的代码转自:https://bugs.chromium.org/p/chromium/issues/detail?id=721739#c60

作者:黑蚂蚁
来源:CSDN
原文:https://blog.csdn.net/weixin_39847926/article/details/82190341
版权声明:本文为博主原创文章,转载请附上博文链接!

from selenium import webdriver
from pyvirtualdisplay import Display
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
 
#_____________________基本设定___________________________
CHROME_DRIVER_PATH = r'/usr/bin/chromedriver' 
PROXY = "http://127.0.0.1:8080"
#_____________________启动参数___________________________
options = webdriver.ChromeOptions()
options.add_argument('--headless')  
options.add_argument('--disable-gpu')  
options.add_argument("window-size=1024,768")  
options.add_argument("--no-sandbox")
 
#_____________________代理参数___________________________
desired_capabilities = options.to_capabilities()
desired_capabilities['acceptSslCerts'] = True
desired_capabilities['acceptInsecureCerts'] = True
desired_capabilities['proxy'] = {
    "httpProxy": PROXY,
    "ftpProxy": PROXY,
    "sslProxy": PROXY,
    "noProxy": None,
    "proxyType": "MANUAL",
    "class": "org.openqa.selenium.Proxy",
    "autodetect": False,
}
#_____________________启动浏览器___________________________
driver = webdriver.Chrome(
    chrome_options=options, 
    executable_path=CHROME_DRIVER_PATH,
    desired_capabilities = desired_capabilities,
                         )
 
for i in range(1):
    driver.get('https://www.iplocation.net')
    contant = driver.page_source
    driver.save_screenshot('hello.png')
    print(contant)
    driver.close()
    driver.quit()
 
mitmdump -p 8080

抄自https://blog.csdn.net/weixin_39847926/article/details/82190341,查侵删
成功
我的是返回<html xmlns="http://www.w3.org/1999/xhtml"><head></head><body></body></html>

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 在此特此声明:一下所有链接均来自互联网,在此记录下我的查阅学习历程,感谢各位原创作者的无私奉献 ! 技术一点一点积...
    远航的移动开发历程阅读 11,302评论 12 197
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,808评论 25 709
  • 用两张图告诉你,为什么你的 App 会卡顿? - Android - 掘金 Cover 有什么料? 从这篇文章中你...
    hw1212阅读 13,050评论 2 59
  • 这几天,自己情绪不稳。和女儿终于发生了对撞。早上女儿9点起床,起床后告诉我玩一会手机就学习。我同意了,问她吃什么早...
    张丽女13初二阅读 130评论 0 0
  • 安静是一种纯美情怀 懂得小心将过去层层仔细抖开 某个地方某朵花正盛开 某个人会不会来没所谓意外 放低到无半分姿态 ...
    晓歌阅读 181评论 0 0