python 爬虫

最近爬取天眼查的企业数据，天眼查的页面用的js技术，所以用requests已经不能爬了，所以想了两种办法

1.用selenium+Phantomjs模拟浏览器
用这种方法，成功的爬到了想要的数据，缺陷就是爬取速度慢，平均爬一条数据几十秒，下边是代码

dcap = dict(DesiredCapabilities.PHANTOMJS)
    dcap["phantomjs.page.settings.userAgent"] = (
        "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Mobile Safari/537.36"
    )

    driver = webdriver.PhantomJS(desired_capabilities=dcap)
    driver.get(url)
    #print (driver.page_source)
    soup = BeautifulSoup(driver.page_source, 'lxml')
    driver.quit()

一开始爬取页面不全，后边添加UA后，可以了。

2.直接请求json来爬取
完全模拟headers，还是502，后经查询，是cookies里边的token和_utm动态生成，现在还在研究怎么破解。

最后编辑于：2017.12.05 14:09:35

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

2赞3赞

赞赏

手机看全文

python 爬虫

一开始爬取页面不全，后边添加UA后，可以了。

相关阅读更多精彩内容

友情链接更多精彩内容