课堂作业
要爬取的数据类别
对应的数据源网站
爬取数据的URL
数据筛选规则(选做)
要爬取的数据类型
我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。
对应的数据源网站
- 三大证券报:
- 两大官方网站:
- 上海证券交易所
- [上海证券交易所]](http://www.szse.cn/)
- 最大信息发布网站:
- 财经新闻网站:
- 股票论坛:
爬取数据的URL
- 三大证券报:
- 两大官方网站:
- 最大信息发布网站:
- 财经新闻网站:
- 股票论坛:
- 雪球网 : https://xueqiu.com/hq
数据筛选规则
股票消息分为:实时性和非实时性的消息,因此要分2种方式设定规则。
实时性消息: 每20分钟刷新一次网站采集的数据,如果采集的数据中有自己设置的关键词(例如:突发重大新闻,自己关心的股票,涨幅超过5%),提取相应的信息。
非实时性消息:每年发布季报、半年报、年报的日期,爬取上海证券交易所、深圳证券交易所、巨潮咨询网中每个公司发布的年报摘要,如果有自己设置的关键词(营业额年增长率超过50%、营业利润率超过20%),提取对应的公司信息。每日爬取雪球网中行情排行榜、热度排行榜、讨论排行榜中上榜的股票,并通过每周上榜股票的次数。