登录注册写文章

Python 爬虫入门课作业1－获取网络数据的原理

不忘初心2017

Python 爬虫入门课作业1－获取网络数据的原理

课堂作业

要爬取的数据类别
对应的数据源网站
爬取数据的URL
数据筛选规则(选做)

学习python，想研究一些兼职的python脚本工作，分析一下主要的需求方面，重点学习和练习。

要爬取的数据类型

爬取网站每天发布的python相关工作需求，抓取的数据包括：

所有的python job list
每个 Job 的数据：
job title
job skills
job details
pricing

对应的数据源网站

https://www.upwork.com/

爬取数据的URL

https://www.upwork.com/o/jobs/browse/?q=python

数据筛选规则

根据id= "jobs-list"获取job list,
根据class="job-title"获取单个job,
根据class="break visited"获取单个job url

根据class="row"获取单个job 的数据
如需details，继续爬取该job url

最后编辑于：2017.12.08 07:50:01

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

爬虫（1）--- Python网络爬虫二三事
1 前言作为一名合格的数据分析师，其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
whenif阅读 18,333评论 45赞 523
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 136,774评论 19赞 139

Python--Flask Django等常用库总结
# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
aimaile阅读 26,848评论 6赞 427
Python 格式化输出
输出信息使我们获取程序调试信息的重要渠道；恰到好处的输出格式能帮我们直观的查看调试信息。常用格式化符种类及描述...
老黄爱Python阅读 3,100评论 0赞 3
2017-11-12
人跟人不都是不一样的吗，不是应该容许差异存在的吗
咿呀小怪兽阅读 207评论 1赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文