python+requests新浪财经爬虫

最近一直使用的华尔街见闻被禁用了, 于是无法第一时间获取全球财经信息, 为了解决这个问题, 最终找出了如下解决方案.

思路:

使用爬虫获取新浪资讯http://finance.sina.com.cn/7x24/, 而后将新资讯推送至钉钉群,从而实现手机实时读取财经资讯.

方法:

1, 采用python的requests库,获取该网页信息,发现无法读取新闻内容,分析网页得知网页新闻为js动态加载,于是找到对应的请求链接


2, 获取json格式的文件, 由于其中中文采用Unicode编码, 所以需要添加对应转码的步骤. json文件如下



3, 采用re库, 对文件中新闻部分进行提取, 然后逐条判断新闻是否为新发布的新闻, 对新的新闻进行处理, 推送给钉钉群机器人接口. 提取新闻的规则表达式如下: contents = re.findall('rich_text":"(.*?)","multimedia', r.text, re.S)

4, 钉钉接口接收新的新闻, 并发送至钉钉群.

完整代码如下:

getee链接:

https://gitee.com/bob1112/pythonPaChong/blob/master/sina_spider.py


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容