数据采集-喜马拉雅

喜马拉雅

  • 以喜马拉雅节目分类为入口,分析网站结构
    首先爬取喜马拉雅的所有分类的链接和类别名
左侧分类列表.png
  • 获取每个分类的页面后获取每个分类下面的所有节目的的相关内容
每个类别下面的所有节目.png

每个类别的节目都是用分页形式来展示,所有构建页码,通过获取每个分类下最多分多少页,来构建每个分页面的的url链接,再通过链接地址获取相应分页的页面


分页页面url示例.png
  • 获取每个节目中的信息,例如音频id
节目页面.png
一个节目中的每期音频的id.png

对比.png

未完。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容