Python 爬虫入门课作业1- 获取网络数据的原理

课堂作业

  • 要爬取的数据类别
  • 对应的数据源网站
  • 爬取数据的URL
  • 数据筛选规则(选做)

学习python,想研究一些兼职的python脚本工作,分析一下主要的需求方面,重点学习和练习。

要爬取的数据类型

爬取网站每天发布的python相关工作需求,抓取的数据包括:

  • 所有的python job list
  • 每个 Job 的数据:
  • job title
  • job skills
  • job details
  • pricing

对应的数据源网站

https://www.upwork.com/

爬取数据的URL

https://www.upwork.com/o/jobs/browse/?q=python

数据筛选规则

根据id= "jobs-list"获取job list,
根据class="job-title"获取单个job,
根据class="break visited"获取单个job url

  • 根据class="row"获取单个job 的数据
  • 如需details,继续爬取该job url
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,210评论 45 523
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,833评论 19 139
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,725评论 6 427
  • 输出信息使我们获取程序调试信息的重要渠道; 恰到好处的输出格式能帮我们直观的查看调试信息。 常用格式化符种类及描述...
    老黄爱Python阅读 8,003评论 0 3
  • 人跟人不都是不一样的吗,不是应该容许差异存在的吗
    咿呀小怪兽阅读 1,405评论 1 0

友情链接更多精彩内容