1.6 Web库的安装
现在日常访问的网站都是Web服务程序搭建而成的。Python也有Web服务程序,比如Flask, Django等,我们可以使用它来开发网站和接口等。
主要作用是构建代理池。本书中的Web服务成雪主要是Flask和Tornado。
1.6.1 Flask的安装
Flask是一个轻量级的Web服务程序,它简单,易用,灵活。
1.6.2 Tornado的安装
Tornado是一个支持异步的Web框架,通过使用非阻塞I/O流, 它可以支撑成千上万的开放连接,效率非常高。
利用Tornado + Redis来搭建一个ADSL拨号代理池
1.7 APP爬取相关库的安装
简单的接口 Charles或者mitmproxy分析
复杂的结构用mitmdump来对抓取的请求和相应进行实时处理和保存
自动化App操作, 使用Appium。
1.7.1 Charles的安装
Charles是一个网络抓包工具,相比Fiddler,其功能更强大,跨平台支持得更好,
由于使用时间是30天,所以先下载,等用到再配置
1.7.2 mitmproxy的安装
mitmproxy是一个支持HTTP和HTTPS的抓包程序,类似Fiddler, Charles的功能,只不过它通过控制台的形式操作。
此外, mitmproxy还是两个关联组建,一个是mitmdump,它是mitmproxy的命令行接口,利用它可以对接Pyhton脚本,实现监听后的处理,另一个是mitmweb,它是一个Web程序,通过它可以清楚的观察到mitmproxy捕获的请求
1.7.3 Appium的安装
1.8 爬虫框架的安装
我们直接用requests,Selenium等库写爬虫,爬取量不大,速度要求不高,完全可以满足需求,但是很多代码和组件可以复用,我们吧这些组件抽离出来,将各个功能模块化,就慢慢会形成一个框架出行,久而久之,爬虫框架就诞生了。
利用框架,我们可以不用关心某些功能的具体实现,只关心逻辑即可,有了它们,可以大大简化代码量,而且框架也会变得清晰,爬取效率也会高很多。
主要介绍了爬虫框架有pyspider和Scrapy.
1.8.1 pyspider的安装
pyspider是国人binux写的强大的爬虫框架,它带有强大的WebUI, 脚本编辑器,任务控制器,项目管理器以及结果处理器,同时支持多种数据库后端,多种消息队列,另外还支持JavaScript渲染页面的爬去,使用起来非常方便。
1.8.2 Scrapy的安装
Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具