python爬虫常用库介绍

python自带urllib、re

requests  用于发送request并接受response

selenium  用于驱动浏览器,一些JS渲染的网页用requests不能正常获取,要用这个来模拟浏览器,获得渲染后的网页内容。

selenium需要配合chrome driver或phantomjs使用。前面的会驱动一个chrome浏览器,后面的是一个无界面浏览器。

lxml  提供了xpath解析方式

beautifulsoup4  依赖于lxml,也用于网页解析

pymysql  用于操作mysql数据库

pymongo  用于操作mongoDB数据库

redis  用于操作redis数据库

flask  是一个web框架,用于代理信息的获取和存储

django   一个web框架,用于做一个管理系统,管理分布式爬虫和主机信息

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,616评论 6 427
  • Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资...
    叶同学阅读 11,234评论 0 73
  • 微信“朋友圈是”可以关闭的,于是我把它关闭了。圈里有很多“诱惑”,以至于不能自已,忘却自己,过去与未来。内功不够,...
    蓝羿阅读 119评论 0 0
  • 一、A—A—A型,即原形、过去式和过去分词三者都相同.(共9个) cost—cost—cost cut—cut—c...
    白发佛阅读 4,759评论 0 1
  • 湖风轻柔地安抚 唐星河 湖面像巨大且会翻涌的翡翠 头顶有被涂抹上水墨色的云层 感觉就要袭来一场急雨 好...
    唐星河阅读 191评论 0 2