常用的Python爬虫库

  1. HTTP库
  • requests - 人性化的HTTP请求库。(推荐使用)
  • urllib和urllib2 - Python2、Python3自带的http请求库
  • grequests – requests 库 + gevent ,用于异步 HTTP 请求。
  • httplib2 – 全面的 HTTP 客户端库。
  • treq – 类似 requests 的Python API 构建于 Twisted HTTP 客户端之上。
  1. HTML解析库
  • BeautifulSoup – 以 Python 风格的方式来对 HTML 或 XML 进行迭代,搜索和修改。(推荐)
  • cssutils – 一个 Python 的 CSS 库。
  • html5lib – 一个兼容标准的 HTML 文档和片段解析及序列化库。
  • lxml – 一个非常快速,简单易用,功能齐全的库,用来处理 HTML 和 XML。(推荐)
  • re - 正则表达式,规则过于强大以至于难以操作
  1. 网站爬取库
  • Scrapy – 一个快速高级的屏幕爬取及网页采集框架。(推荐)
  • Grab – 站点爬取框架。
  • portia – Scrapy 可视化爬取。
  • pyspider – 一个强大的爬虫系统。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,623评论 6 427
  • 环境管理管理Python版本和环境的工具。p–非常简单的交互式python版本管理工具。pyenv–简单的Pyth...
    MrHamster阅读 3,868评论 1 61
  • GitHub 上有一个 Awesome - XXX 系列的资源整理,资源非常丰富,涉及面非常广。awesome-p...
    若与阅读 18,901评论 4 418
  • 或者,马上要开始了新的生活。 她问我, 是获得新生,还是迎接恐惧。 我告诉她, 谁知道呢,我也不知道,上天安排这样...
    啧啧啧丶丶阅读 389评论 0 0
  • 看的出来,孩子很满足和享受父母对于一件小事的即时的肯定。专家说:孩子几乎所有的不当行为的原因,都可以认为是缺乏...
    不忘初心090421阅读 222评论 0 0