第一章 :网络爬虫简介

第一章 :网络爬虫简介

1.网络爬虫是什么?

2.网络爬虫何时有用?

3.背景调研

  • 检查robots.txt

大都数网站都会定义robots.txt 文件。这样可以让爬虫了解爬取该网站时存在哪些限制。在爬取前检查该文件可以最小化爬虫被禁的可能,而且还能发现和网站结构相关的线索。
关于robots.txt协议的更多信息可参见

  • 检查网站地图

网站提供的sitemap文件(即网站地图)可以帮助爬虫定位最新的内容,而无须爬取每一个网页 。
网站地图标准的定义

  • 估算网站大小

目标网站的大小会影响我们如何进行爬取。对于大型网站(几百万个网页)则需要用分布式爬虫。
估算一个网站大小最简单的方法是检查Google爬虫的结果,当然百度也可以。
如搜索site example.webscraping.com

  • 识别网站所用技术

python检查网站技术模块builtwith
pip install builtwith

>>> import builtwith    
>>> builtwith.parse('http://example.webscraping.com')   
>>> {u'javascript-frameworks': [u'jQuery', u'Modernizr', u'jQuery UI'], u'web-frameworks': [u'Web2py', u'Twitter Bootstrap'], u'programming-languages': [u'Python'], u'web-servers': [u'Nginx']}    
  • 寻找网站所有者

python中有一个针对whois协议封装的库,其官方文档为
pip install python-whois

>>> import whois
>>> print whois.whois('example.webscraping.com')
  • 编写第一个爬虫

代码参见

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 本内容为《用Python写网络爬虫》书籍内容,有兴趣的读者可以购买本书,本章的代码皆可在Python3中运行。为了...
    海人为记阅读 2,270评论 0 5
  • 书名:《用python写网络爬虫》,通过阅读并记录去学习,如果文章有什么错误的地方还希望指正本文参考了http:/...
    枫灬叶阅读 2,904评论 2 2
  • 什么是网络爬虫 大数据时代,获得完整全面的数据,是件极其重要却并不容易的事情。要真正做好大数据时代的分析,就需要借...
    ReinhardHuang阅读 915评论 0 10
  • 弹出的音符,划过手指, 匆匆地逃出了窗户, 因为即使是那么悲伤的曲目 也无法忍受我的孤独。 走吧...
    豆儿三爷阅读 132评论 1 1
  • 今天爸爸妈妈给我在上海文庙附近的街上买了一把刀。 刀的封面上画着吐着蓝色火焰的巨龙,浑身布满了银色的龙鳞,眼睛是蓝...
    阿布大阅读 356评论 0 2