要学习Python爬虫,我们要学习的共有以下几点:
- Python基础知识
- Python中urllib和urllib2库的用法
- Python正则表达式
- Python爬虫框架Scrapy
- Python爬虫更高级的功能
- 入门基础
推荐几个比较不错的PythobIDE提供给开发者 10 款最好的 Python IDE 我比较喜欢sublime
可以看视频慕课网Python视频
可以读文档廖雪峰
可以简单入门简明Python教程 - 爬虫用到的库
- 学习urllib和urllib2,这个基本库
- 学习Request库的使用,下面是他的安装方式,一般的用法Request API文档
pip install requests
或者
easy_install requests
- 学习BeautifulSoup 官方文档地址 下面是安装方法
pip install beautifulsoup4
oreasy_install beautifulsoup4
- lxml安装(它的替代品也可以用html5lib)lxml文档 和XPath 安装方法同上
pip install lxml
oreasy_install lxml
- 学习PhantomJS 文档地址 和官方例子
- 学习Selenium自动化测试工具 官网 和 文档API安装方法如下命令
pip install selenium
- pyquery学习 文档
可以参考这里
- 正则表达式-崔庆才博客
通过正则表达式来匹配筛选出自己想要的数据 - 爬虫框架的学习
- Scrapy框架 安装
pip install Scrapy
- Pyspider框架 安装
pip install pyspider
官方文档 安装这个出现了各种坑 至今没有解决(17.12.28)
- Scrapy框架 安装