登录注册写文章

2021-01-28

2021-01-28

爬虫介绍

什么是爬虫？

简单一句话就是代替人去模拟浏览器进行网页操作

为什么需要爬虫？

为其他程序提供数据源如搜索引擎(百度、Google等)
数据分析、大数据等等
ＡI人工智能(有脸识别，智能家居、无人驾驶、智能导航……)
要达到这些Python技术一定非常高，数学、算法、数据分析能力等

企业获取数据的方式?

1.公司自有的数据
2.第三方平台购买的数据
　。免费的大数据平台如百度指数
　。付费的大数据平台　如数据堂、贵阳大数据交易所
3.爬虫爬取的数据

Python 做爬虫的优势

PHP : 对多线程、异步支持不太好
Java : 代码量大，代码笨重
C/C++ : 代码量大，难以编写
Python : 支持模块多、代码简介、开发效率高 (scrapy框架)

爬虫的分类

通用网络爬虫各大搜索引擎　例如 baidu google yahu
聚焦网络爬虫: 根据既定的目标有选择的抓取某一特定主题内容

三、几个概念

GET和POST

GET : 查询参数都会在URL上显示出来，一般情况下，只是从服务器上获取数据，没有对服务器造成影响，这种方式就是一个get请求
POST : 查询参数和需要提交数据是隐藏在Form表单里的，不会在URL地址上显示出，POST请求对服务器有影响

URL组成部分

URL: 全球统一资源定位符
https://new.qq.com/omn/TWF20200/TWF2020032502924000.html
https: 协议
new.qq.com: 主机名，可以理解为一台主机名叫 news.qq.com 。这台主机在 qq.com 这个域名下
port 端口号: 80 /new.qq.com 在他的后面有个 :80 可以省略
TWF20200/TWF2020032502924000.html 访问资源的路径
anchor: 锚点用前端在做页面定位的
注意 : 在浏览器请求一个url,浏览器会对这个url进行一个编码。(除英文字母、数字和部分标识其他的全部使用% 加十六进制码进行编码)
例如 : https://tieba.baidu.com/f?ie=utf-8&kw=%E6%B5%B7%E8%B4%BC%E7%8E%8B&fr=search
%E6%B5%B7%E8%B4%BC%E7%8E%8B = 海贼王

User-Agent 用户代理

作用:记录用户的浏览器、操作系统等,为了让用户更好的获取HTML页面效果
User-Agent:
Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36
反反爬的第一步

Referer

表明当前这个网址是从哪个url过来的。一般情况下可以用来做反爬的技术

cookie记录了与服务器相关的用户信息

*　http协议是无状态的什么是无状态服务器无法判断用户的身份

cookie实际上是一小段文本信息（ley-value格式）
反反爬例如12306 百度
作用反爬模拟登录

状态码

200 : 请求成功
301 : 永久重定向
302 : 临时重定向
404 : 请求失败(服务器无法根据客户端的请求找到资源（网页）)
500 : 服务器内部请求

抓包工具

image.png

Elements : 元素网页源代码，提取数据和分析数据页面(有些数据是经过特殊处理的所以并不是都是准确的)
Console : 控制台 (打印信息，用的不多)
Sources : 信息来源 (整个网站加载的文件)
NetWork : 网络工作(信息抓包) 能够看到很多的网页请求

最后编辑于：2021.02.16 09:45:48

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

01 爬虫的起步
目录通讯协议• 端口• 通讯协议网络模型爬虫介绍• 什么是爬虫• 爬虫的分类几个概念• GET和POST•...
一饮一石阅读 562评论 0赞 0
CocoaPods 最新系统安装 2021-01-28（包含M1）
参考：刚发现可参考链接[https://www.cnblogs.com/huihuizhang/p/143316...
小专注阅读 7,104评论 1赞 3

L01_爬虫前导知识
爬虫的前导知识 · 端口 · 数据通信的原理，数据传输分为几步？ · 找到对方IP · 数据要发送到对方...
Dummax阅读 225评论 0赞 0
PD1/PD-L1抑制剂作用机制及临床研究
PD1/PD-L1抑制剂作用机制及临床研究抗PD1治疗 PD-1为共抑制性受体,表达于B淋巴细胞、活化的CD4+...
阿里丁丁阅读 4,369评论 0赞 0
2019－11－28 周四阴
今天感恩节哎，感谢一直在我身边的亲朋好友。感恩相遇！感恩不离不弃。中午开了第一次的党会，身份的转变要...
余生动听阅读 10,745评论 0赞 11

友情链接更多精彩内容

赞1赞

赞赏

手机看全文