1.因为东财的数据是通过异步提取,所有可以以
用浏览器的开发工具 network-js-刷新 的方式得到数据接口
分析后以 3426项为结束 并用1页请求下来, 避免东财的监控
http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=FD&sty=TSTC&st=1&sr=1&p=1&ps=3426
2.使用scrapy 以 scrapy.Request 分两步爬取
1步爬取本页的基本数据
2步分析另一页的链接 并爬取数据(以http://data.eastmoney.com/stockcomment/%s.html %s为股票代码 得到详情页)
3 将两页的数据合并在一起 存入数据库
4 定时更新时分为按股票代码 如果存在就存储 如果已经有了,就更新的原则