python-爬虫教程

引用：https://germey.gitbooks.io/python3webspider/content/2.2-Web%E7%BD%91%E9%A1%B5%E5%9F%BA%E7%A1%80.html

reference：https://germey.gitbooks.io/python3webspider/content/1.2.3-ChromeDriver%E7%9A%84%E5%AE%89%E8%A3%85.html

建立文件夹：mkdir python3

建立文件 vim python3.txt

vim：只读方式打开([O]), 直接编辑((E)), 恢复((R)), 退出((Q)), 中止((A)):

流程：抓取页面、分析页面、存储数据

（1）请求库的安装：

1.爬取页面：使用python3的第三方库来请求http网页内容，库为：Requests、Selenium、Aiotttp 等；

安装过程：pip3 install requests 和 wheel python3验证：import requests 不报错；

2.Selenium 是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等等操作，对于一些 JavaScript 渲染的页

面来说，此种抓取方式非常有效；

安装过程：pip install selenium pthon3 import selenium 不报错就可以了；

selenium与Chrome关联：1.查找chrome号：如：版本 70.0.3538.77（正式版本）（64 位）；进入网站下载对应版本的chromedriver；

https://sites.google.com/a/chromium.org/chromedriver/downloads （网站要翻墙的）；在 Windows 下，建议直接将

chromedriver.exe 文件拖到 Python 的 Scripts 目录下：chromedriver 就可以了没报错。

随后再在python程序中测试，执行如下 Python 代码：出现空白chrome网页

from selenium import webdriver

browser = webdriver.Chrome()

3.Aiohttp的安装：合理安排时间做其他的事情

安装：pip install aiohttp

另外官方还推荐安装如下两个库，一个是字符编码检测库 cchardet，另一个是加速 DNS 解析库 aiodns，安装命令如下：比如维护一个

代理池，利用异步方式检测大量代理的运行状况，极大提高效率。

（2）解析库的安装

抓取下网页代码之后，下一步就是从网页中提取信息，LXML、BeautifulSoup、PyQuery 等库-使用的是LXML、BeautifulSoup、PyQuery

解析方法

安装 pip3 install lxml 测试：>>> import lxml

pip3 install beautifulsoup4 测试：from bs4 import BeautifulSoup soup = BeautifulSoup('<p>Hello</p>', 'lxml') print

(soup.p.string) 结果为：hello

安装：pip3 install pyquery 验证：>>> import pyquery

Tesserocr的安装:识别二维码：http://digi.bib.uni-mannheim.de/tesseract/ 之后安装pip3Tesserocr ： install tesserocr

pillow

写到这里真的就不想学了，感觉没有时间了。想学的可以看着引用的用就是了，还是蛮详细的。

我还是学生物的，忘记了老本行了都。感觉学的都不是很精确，但是总觉得还是懂一点点的。就这样吧。。。