

大数据爬虫
爬虫
定义:爬虫又称之为网络蜘蛛或网络机器人 爬虫是通过编写程序自动下载网页数据的过程
互联网:通过超链接连接起来的信息大网
url:统一资源定位符
爬虫语言
python
java
php
c/c++
爬虫分类
通用爬虫
定义:对爬取对象通过一批种子url扩充到整个web,主要应用于搜索引擎,主要由大型web提供商使用
robots协议:存放在网站上的根目录底下的文本文件 当爬虫爬取网站时,先访问获取内容,并告知爬虫是否可以爬取网站
聚焦爬虫
定义:根据特定的需求,爬取指定数据的一种爬取方式
思路
1.通过网站上给定的url模拟浏览器向服务器发送请求
2.从服务器上下载我们的网络内容并进行解析
增量式网络爬虫
定义:只对已经下载的网页采取增量式更新或只爬取新产生的即发生变化的网页
深层网络爬虫
表层页面爬虫
定义:爬取超链接可达的静态页面
深层页面爬取
定义:是通过页面表单中的关键字来获取网页内容的方式
反爬虫
定义:网站的所有者从网站访问者中识别爬虫并作出相应处理的过程
反反爬手段:
1.通过设置User-Agent模拟浏览器
2.通过设置网站访问时间间隔来调整访问频度
3.通过识别验证码实现验证码校验
4.应对网站结构变化
5.设置模拟登录方式绕过账号权限设置
6.通过设置ip代理池规避ip封禁问题
爬虫工具及解析工具
爬虫工具
urllib
requests
Selenium
scrapy
解析工具
正则
Bs4
jsonpath
Xpath
知识链接
http与https协议
http协议
超文本传输协议,端口号80,它允许 将超文本标记语言(HTML)文档从 Web服务器传送到客户端的浏览器,不提供数据加密。
https协议
安全套接层超文本传输协议,端口号443,在http基础上加入ssl协议,ssl靠证书来验证服务器身份,实现浏览器到服务器的加密通信。
加密与解密
明文
指没有加密的文字(或者字符串),一般人都能看懂的意思,在通信系统中它可能是比特流,如文本、位图、数字化的语音或者数字化的视频图像等。
密文
加了密的的文字,明文是加密之前的文字。密文是对明文进行加密后的报文。
密钥分类
公钥与私钥
私钥
非公开密钥,接收方接收数据时使用私钥解密。
公钥
公开的密钥,用户在传输数据将数据使用公钥加密。
对称加密和非对称加密
对称加密
加密与解密的密钥相同。
非对称加密
加密与解密的密钥不相同。