爬虫入门01作业

课堂作业

  • 要爬取的数据类别

  • 对应的数据源网站

  • 爬取数据的URL

  • 数据筛选规则(选做)

要爬取的数据类型

我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。

对应的数据源网站

  1. 三大证券报:
  2. 两大官方网站:
  3. 最大信息发布网站:
  4. 财经新闻网站:
  5. 股票论坛:

爬取数据的URL

  1. 三大证券报:
  2. 两大官方网站:
  3. 最大信息发布网站:
  4. 财经新闻网站:
  5. 股票论坛:

数据筛选规则

股票消息分为:实时性和非实时性的消息,因此要分2种方式设定规则。

  • 实时性消息: 每20分钟刷新一次网站采集的数据,如果采集的数据中有自己设置的关键词(例如:突发重大新闻,自己关心的股票,涨幅超过5%),提取相应的信息。

  • 非实时性消息:每年发布季报、半年报、年报的日期,爬取上海证券交易所、深圳证券交易所、巨潮咨询网中每个公司发布的年报摘要,如果有自己设置的关键词(营业额年增长率超过50%、营业利润率超过20%),提取对应的公司信息。每日爬取雪球网中行情排行榜、热度排行榜、讨论排行榜中上榜的股票,并通过每周上榜股票的次数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容