2019-10-20 学习爬虫的几点笔记

周末两天基本都在研究如何爬取知乎具体一个问答下的所有回答,有几点记录下。

1.动态网页抓取,可以使用selenium模拟浏览器,多适用于有“点击加载更多”的按钮。但知乎是属于要下拉判断的,所以更适合用‘network’查询网页元素的方式获取新的地址。

2.利用requests得到的是json格式的数据,用json.loads()去读取相关数据。

3.利用两本书交叉着看确实很有效率。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,859评论 6 28
  • Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细...
    楚江数据阅读 1,494评论 0 6
  • 1. 概述 本文主要介绍网络爬虫,采用的实现语言为Python,目的在于阐述网络爬虫的原理和实现,并且对目前常见的...
    Lemon_Home阅读 2,896评论 0 21
  • Python入门网络爬虫之精华版 网址: https://github.com/lining0806/Python...
    ZHANG_GO阅读 692评论 0 2
  • 1 全息路网 07年我去浦东提车的时候,有一个我姑父的朋友叫做戚师傅、又叫阿戚头的老司机,一直陪着我。我原以为他是...
    坚果姐姐阅读 957评论 0 2