爬虫原理与数据抓取--爬虫基础教程(python)(一)

为什么要写网络爬虫?

首先,我们知道如今大数据十分火热,那么数据从何而来呢?
小编整理了一下:

网络爬虫的定义是什么?

百度百科:网络爬虫
按照自己的话来说,互联网就是一个很大的蜘蛛网,而爬虫就是网上爬来爬去的蜘蛛。

那么这个蜘蛛除了爬取数据还有什么其他用处呢?

我们会在掌握基础后,实现以下功能:

  • 12306抢票
  • 网站上的抢票
  • 等等...

python写网络爬虫我们需要掌握:

  • Python基础语法(基础知识)
  • 对前端页面结构的掌握(html,js),内容的抓取(数据抓取)
  • 对HTML页面的数据提取(json数据的提取)
  • Scrapy框架以及scrapy-redis分布式策略(第三方框架)
  • 爬虫(Spider)、反爬虫(Anti-Spider)、反反爬虫(Anti-Anti-Spider)的战争。。。

内容参考传智播客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容