归纳下Python爬虫的点

要学习Python爬虫,我们要学习的共有以下几点:

  1. Python基础知识
  2. Python中urllib和urllib2库的用法
  3. Python正则表达式
  4. Python爬虫框架Scrapy
  5. Python爬虫更高级的功能

  1. 入门基础
    推荐几个比较不错的PythobIDE提供给开发者 10 款最好的 Python IDE 我比较喜欢sublime
    可以看视频慕课网Python视频
    可以读文档廖雪峰
    可以简单入门简明Python教程
  2. 爬虫用到的库
    • 学习urllib和urllib2,这个基本库
    • 学习Request库的使用,下面是他的安装方式,一般的用法Request API文档
      pip install requests
      或者
      easy_install requests
    • 学习BeautifulSoup 官方文档地址 下面是安装方法pip install beautifulsoup4 oreasy_install beautifulsoup4
    • lxml安装(它的替代品也可以用html5lib)lxml文档XPath 安装方法同上pip install lxml oreasy_install lxml
    • 学习PhantomJS 文档地址官方例子
    • 学习Selenium自动化测试工具 官网文档API安装方法如下命令
      pip install selenium
    • pyquery学习 文档
      可以参考这里
  3. 正则表达式-崔庆才博客
    通过正则表达式来匹配筛选出自己想要的数据
  4. 爬虫框架的学习
    • Scrapy框架 安装pip install Scrapy
    • Pyspider框架 安装pip install pyspider 官方文档 安装这个出现了各种坑 至今没有解决(17.12.28)
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 爬虫文章 in 简书程序员专题: like:128-Python 爬取落网音乐 like:127-【图文详解】py...
    喜欢吃栗子阅读 22,384评论 4 411
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,725评论 6 427
  • 清风卷起你的长发 撩起了我心中涟漪 旧日的爱意 慢慢的发蘸 酝酿成一条滔滔大河。 鲜花,物质 都成俱往矣, 爱情,...
    我爱领导的小生阅读 1,256评论 3 4
  • 好几天没发朋友圈了,本想顺势撤退,但是今天这个特殊又不特殊的日子又把我炸了出来。 今天是晚自习的最后一天了,这也就...
    Nasticg阅读 1,688评论 0 0
  • 在生活中大家大多都会遇到这样的情况,工作太多做不完、人情太多送不完、烦恼太多理不清、知识太多学不完……每天赶...
    醒狼阅读 8,571评论 2 24

友情链接更多精彩内容