爬金融数据

最喜欢的爬取的就是由前端数据,返回的json全是数据特别好弄,而且还可以根据需求构造网址,一次取回所需数据。
这次爬的是东方财富网的股东人数,地址是http://data.eastmoney.com/gdhs/0/2018-06-30.html
页面选中2018中报


可以看到有69页*50行这样多的数据,通过翻页可以看到数据的传输情况。
地址是http://data.eastmoney.com/DataCenter_V3/gdhs/GetList.ashx?reportdate=2018-06-30&market=&changerate==&range==&pagesize=50&page=2&sortRule=-1&sortType=NoticeDate&js=var%20DzSDuvmw&param=&rt=51196634
pagesize一次获取的数据量,就是返回的json所含数据量,reportdate: 2018-06-30这是报告期,page第几页。

看看json,果然是这样。


知道这些之后就能构造网址例行爬取了。

url ='http://data.eastmoney.com/DataCenter_V3/gdhs/GetList.ashx?reportdate=2018-06-30&market=&changerate==&range==&pagesize=4000&page=1&sortRule=-1&sortType=NoticeDate&js=var%20DzSDuvmw&param=&rt=51196634'
    file = requests.get(url).text
    m = re.search('"data":(\[.*\])', file).group(1)
    da = pd.read_json(m, dtype={'SecurityCode': str})
    da.to_excel('gudongrenshu2018-6-30.xls', encoding='utf-8')

这就是5行爬取3400+数据

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 第一部分 HTML&CSS整理答案 1. 什么是HTML5? 答:HTML5是最新的HTML标准。 注意:讲述HT...
    kismetajun阅读 27,626评论 1 45
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,009评论 2 89
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,860评论 18 139
  • 概要 64学时 3.5学分 章节安排 电子商务网站概况 HTML5+CSS3 JavaScript Node 电子...
    阿啊阿吖丁阅读 9,285评论 0 3
  • 前两天做的猪脚姜,因为大家都凑巧不在家,留给自己好好的补一补了,刚才盛了小半碗来吃,感觉整个人要喷火,估计是吃了两...
    苍穹一君阅读 406评论 0 1