登录注册写文章

python爬取翻页（每页行数可选）url不变的网页表格数据

辫子歪歪肉小萌

python爬取翻页（每页行数可选）url不变的网页表格数据

url：http://gs.amac.org.cn/amac-infodisc/res/pof/fund/index.html

需求：把此网页中表格数据全部爬取出来导到excel里

页面如下：

小白一枚，第一次拿到这个需求，整个人是懵的。咦？怎么每次url都不变？怎么照网上说的用xpath追踪定位table爬取不成功呢？百度了三四天网上也没有类似案例，最后，在一位大神帮助下成功解决。【这个网页应该跟异步加载型的网页差不多，或者这也算是是防爬虫的手段吧。数据是通过另一个接口的请求得到的，而不是直接由html文件给出的。】

实际网址：f12调试模式——>network里面——>xhr选项，看异步请求

思路：

(1)获取接口的数据（headers头部）

(2)提取接口数据（json模块）

(3)时间戳的转换（time模块）

附上详细代码：

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Ajax的运用
AJAX 原生js操作ajax 1.创建XMLHttpRequest对象 var xhr = new XMLHtt...
碧玉含香阅读 8,607评论 0赞 7
XMLHttpRequest
Ajax和XMLHttpRequest 我们通常将Ajax等同于XMLHttpRequest，但细究起来它们两个是...
changxiaonan阅读 6,767评论 0赞 2

十八、Ajax 与 Comet
2005 年，Jesse James Garrett 发表了一篇在线文章，题为“Ajax: A new App...
霜天晓阅读 4,367评论 0赞 1
感赏日志65
今天下午因姑姑的碎碎念，把我的情绪拉低了让心里很是不爽的感觉。叨叨他的不是，当是我知道自己干扰了。在尽量控制自己的...
潘晓丽吸引力法则学习者阅读 1,196评论 0赞 0
第一次亲密接触
第一次知道李筱懿是在几年前。一天闲逛在书店，各类书籍，各色封面，各种书名，的确让人眼花缭乱。我浏览其中，从书名判...
西风戏语阅读 4,073评论 5赞 12

9赞10赞

赞赏

手机看全文