python 爬虫

最近爬取天眼查的企业数据,天眼查的页面用的js技术,所以用requests已经不能爬了,所以想了两种办法

  • 1.用selenium+Phantomjs模拟浏览器
    用这种方法,成功的爬到了想要的数据,缺陷就是爬取速度慢,平均爬一条数据几十秒,下边是代码
dcap = dict(DesiredCapabilities.PHANTOMJS)
    dcap["phantomjs.page.settings.userAgent"] = (
        "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Mobile Safari/537.36"
    )

    driver = webdriver.PhantomJS(desired_capabilities=dcap)
    driver.get(url)
    #print (driver.page_source)
    soup = BeautifulSoup(driver.page_source, 'lxml')
    driver.quit()
一开始爬取页面不全,后边添加UA后,可以了。
  • 2.直接请求json来爬取
    完全模拟headers,还是502,后经查询,是cookies里边的token和_utm动态生成,现在还在研究怎么破解。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容