引用:https://germey.gitbooks.io/python3webspider/content/2.2-Web%E7%BD%91%E9%A1%B5%E5%9F%BA%E7%A1%80.html
reference:https://germey.gitbooks.io/python3webspider/content/1.2.3-ChromeDriver%E7%9A%84%E5%AE%89%E8%A3%85.html
建立文件夹:mkdir python3
建立文件 vim python3.txt
vim:只读方式打开([O]), 直接编辑((E)), 恢复((R)), 退出((Q)), 中止((A)):
流程:抓取页面、分析页面、存储数据
(1)请求库的安装:
1.爬取页面:使用python3的第三方库来请求http网页内容,库为:Requests、Selenium、Aiotttp 等;
安装过程:pip3 install requests 和 wheel python3验证:import requests 不报错;
2.Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等等操作,对于一些 JavaScript 渲染的页
面来说,此种抓取方式非常有效;
安装过程:pip install selenium pthon3 import selenium 不报错就可以了;
selenium与Chrome关联:1.查找chrome号:如:版本 70.0.3538.77(正式版本) (64 位);进入网站下载对应版本的chromedriver;
https://sites.google.com/a/chromium.org/chromedriver/downloads (网站要翻墙的);在 Windows 下,建议直接将
chromedriver.exe 文件拖到 Python 的 Scripts 目录下:chromedriver 就可以了 没报错。
随后再在python程序中测试,执行如下 Python 代码:出现空白chrome网页
from selenium import webdriver
browser = webdriver.Chrome()
3.Aiohttp的安装:合理安排时间做其他的事情
安装:pip install aiohttp
另外官方还推荐安装如下两个库,一个是字符编码检测库 cchardet,另一个是加速 DNS 解析库 aiodns,安装命令如下:比如维护一个
代理池,利用异步方式检测大量代理的运行状况,极大提高效率。
(2)解析库的安装
抓取下网页代码之后,下一步就是从网页中提取信息,LXML、BeautifulSoup、PyQuery 等库-使用的是LXML、BeautifulSoup、PyQuery
解析方法
安装 pip3 install lxml 测试:>>> import lxml
pip3 install beautifulsoup4 测试:from bs4 import BeautifulSoup soup = BeautifulSoup('<p>Hello</p>', 'lxml') print
(soup.p.string) 结果为:hello
安装:pip3 install pyquery 验证:>>> import pyquery
Tesserocr的安装:识别二维码:http://digi.bib.uni-mannheim.de/tesseract/ 之后安装pip3Tesserocr : install tesserocr
pillow
写到这里真的就不想学了,感觉没有时间了。想学的可以看着引用的用就是了,还是蛮详细的。
我还是学生物的,忘记了老本行了都。感觉学的都不是很精确,但是总觉得还是懂一点点的。就这样吧。。。