请求库安装
爬虫可以简单分为几步:抓取页面、分析页面和存储数据
requests 安装
pip3 install requests
除了pip3的安装方式还有一种叫wheel
在网络差的安装方式,先利用pip3安装wheel
pip3 install wheel
然后到 PyPI 上下载对应的 wheel 文件,如最新版本为 2. 17.3 ,则打开 http s: //pypi python.org/pypi/ requests/2. l 7.3#downlo ads ,下载 requests-2.17 .3 -py2.py3-none-any.whl 到本地随后在命令行界面进入 wheel 文件目录,利用 pip 安装即可,pip3 install requests-2 .17.3-py2.py3-none-any.whl 这样我们也可以完成 requests 安装
- 利用源码安装
requests 项目的地址是: https ://github.com/kennethreitz/requests,利用git clone git://github .com/kennethreitz/requests.git
或者curl -OL https://github.com/kennethreitz/requests/tarball/master
cd requests
python3 setup.py install
- 验证安装
打开终端,开启Python,再引入requests没有任何报错,则表示安装成功
python
import requests
Selenium 安装
pip3 install selenium
同样的可以利用wheel来安装,同上requests的操作,如下
到 PyPl 载对应的 heel 文件进行安装(下载地址: htψs ://pypi.python.org/pypi
selenium/#downloads ),如最新版本为 .4.3 ,则下载 selenium-3.4.3-py2.py3-none any.whl 即可
pip3 install selenium-3.4.3-py2.py3-none-any.whl
- 验证安装
打开终端,开启Python,再引入selenium没有任何报错,则表示安装成功
python
import selenium
ChromeDriver 的安装
- 配合楼上的Selenium自动化工具,下载需要根据自身谷歌版本来来,高版本的国内镜像可能还没更新就需要去国外地址下载,地址分别是
https://sites.google.com/a/chromium.org/chromedriver/downloads (官方)
http://npm.taobao.org/mirrors/chromedriver/(淘宝镜像地址)
不同平台需要下载不同的对应文件
- 在 Windows下,建议直接将 chromedriver.exe 文件拖到 Python 的 Scripts 目录下,也可以单独将其所在路径配置到环境变量;在 Linux 和Mac 下,需要将可执行文件配置到环境变量或将文件移动到属于环境变量的目录里 。
当然,也可以将ChromeDriver 配置到PATH:/usr/local/chromedriver"
保存后执行如下命令:
source -I. profile`
- 验证安装
在终端输入 chromedriver
,如下,则证明安装没有问题
Starting ChromeDriver 2.45.615291 (ec3682e3c9061c10f26ea9e5cdcf3c53f3f74387) on port 9515
Only local connections are allowed.
二次验证,书写Python文件,并执行,文件内容如下:
from selenium import webdriver
browser = webdriver. Firefox()
由于使用的比较新的selenium
,报了selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH
,在这一步我们需要下载geckodriver
,下载地址如下:geckodriver,安装对应版本并解压到火狐浏览器的安装目录,如:D:\Program Files (x86)\Mozilla Firefox
,并将该地址添加到环境变量中;
运行之后,若弹出一个空内的Firefox 浏览器,则证明所有的配置都没有问题 ;如果没有弹出, 请检查之前的每一步配置。如果没有问题,接下来就可以利用Firefox配合 Selenium 来做网页抓取了 。
aiohttp 安装
requests库是一个阻塞式HTTP 请求库,当我们发出一个请求后,程序会一直等待服务 器响应,直到得到响应后,程序才会进行下一步处理。 其实,这个过程比较耗费时间 。 如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度、 响应的处理等,那么爬取效率一定会大大提高。
pip3 install aiohttp
``
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
解决方案Microsoft Visual C++ Build Tools,直接安装即可
- 验证安装
打开终端,开启Python,再引入aiohttp没有任何报错,则表示安装成功
python
import aiohttp