爬虫可以简单分为几步:抓取页面、分析页面和存储数据
1.requests 的安装
http://docs.python-requests.org/en/master/
采用pip安装是比较简便的安装法,在win在运行cmd
运行安装命令:
pip3 install requests
如果pip版本太低,需要升级pip版本
除此之外,还可以选择wheel安装,后缀名为.whl
验证安装:
python
>>>import requests
2.Selenium 的安装
Selenium是一个自动化测试工具,利用它可以执行浏览器特定的动作,比如点击下滑。对于JS渲染的页面来说行之有效。
我们依然采用pip安装:
pip3 install selenium
验证安装:
python
>>>import selenium
但是我们导入selenium还是不够的,还是需要Chrome等浏览器来配合Selenium工作。
3.ChromeDriver 的安装
首先要查看Chrome的版本号,以便于下载对应的ChromeDriver版本。
在其官方网站下载ChromeDriver,注意对应支持的版本号。
下载后直接将解压出来的文件放到E:\Anaconda3\Scripts文件夹里,当然路径可能是不样的。即放到Python的Scripts的文件夹里面就行。配置好环境后我们验证安装。
cmd运行命令
chromedriver
然后在程序中测试,执行Py代码
from seleniumimport webdriver
browser= webdriver.Chrome()
运行之后会弹出空白Chrome浏览器,则证明配置成功。
4.aiohttp 的安装
aiohttp提供异步Web服务,主要用来提高爬虫效率
pip 安装
pip3 install aiohttp
pip3 install cchardet aiodns