登录注册写文章

python+requests新浪财经爬虫

毛绒绒的简书

python+requests新浪财经爬虫

最近一直使用的华尔街见闻被禁用了, 于是无法第一时间获取全球财经信息, 为了解决这个问题, 最终找出了如下解决方案.

思路:

使用爬虫获取新浪资讯http://finance.sina.com.cn/7x24/, 而后将新资讯推送至钉钉群,从而实现手机实时读取财经资讯.

方法:

1, 采用python的requests库,获取该网页信息,发现无法读取新闻内容,分析网页得知网页新闻为js动态加载,于是找到对应的请求链接

2, 获取json格式的文件, 由于其中中文采用Unicode编码, 所以需要添加对应转码的步骤. json文件如下

3, 采用re库, 对文件中新闻部分进行提取, 然后逐条判断新闻是否为新发布的新闻, 对新的新闻进行处理, 推送给钉钉群机器人接口. 提取新闻的规则表达式如下: contents = re.findall('rich_text":"(.*?)","multimedia', r.text, re.S)

4, 钉钉接口接收新的新闻, 并发送至钉钉群.

完整代码如下:

getee链接:

https://gitee.com/bob1112/pythonPaChong/blob/master/sina_spider.py

最后编辑于：2019.06.30 07:23:24

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文