python爬取翻页(每页行数可选)url不变的网页表格数据

url:http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html

需求:把此网页中表格数据全部爬取出来导到excel里

页面如下:

小白一枚,第一次拿到这个需求,整个人是懵的。咦?怎么每次url都不变?怎么照网上说的用xpath追踪定位table爬取不成功呢?百度了三四天网上也没有类似案例,最后,在一位大神帮助下成功解决。【这个网页应该跟异步加载型的网页差不多,或者这也算是是防爬虫的手段吧。数据是通过另一个接口的请求得到的,而不是直接由html文件给出的。

实际网址:f12调试模式——>network里面——>xhr选项,看异步请求

思路:

(1)获取接口的数据(headers头部)

(2)提取接口数据 (json模块)

(3)时间戳的转换 (time模块)


附上详细代码:


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • AJAX 原生js操作ajax 1.创建XMLHttpRequest对象 var xhr = new XMLHtt...
    碧玉含香阅读 3,351评论 0 7
  • Ajax和XMLHttpRequest 我们通常将Ajax等同于XMLHttpRequest,但细究起来它们两个是...
    changxiaonan阅读 2,313评论 0 2
  •   2005 年,Jesse James Garrett 发表了一篇在线文章,题为“Ajax: A new App...
    霜天晓阅读 905评论 0 1
  • 今天下午因姑姑的碎碎念,把我的情绪拉低了让心里很是不爽的感觉。叨叨他的不是,当是我知道自己干扰了。在尽量控制自己的...
    潘晓丽吸引力法则学习者阅读 179评论 0 0
  • 第一次知道李筱懿是在几年前。一天闲逛在书店,各类书籍,各色封面,各种书名,的确让人眼花缭乱。 我浏览其中,从书名判...
    西风戏语阅读 772评论 5 12