登录注册写文章

python基础

特特小哥哥

python基础

URL详解：scheme://host:port/path/?query-string=xxx#anchor

scherme：代表访问协议，一般http/https/ftp
host：主机名，域名如：www.baidu.com
port：端口号。当你访问一个网站的时候，浏览器默认80端口
path：查找路径：比如 https://www.jianshu.com/u/f919029c3586 后面的/u/f919029c3586 就是path
query-string：查询字符串,比如 www.baidu.com/s?wd=python 后面的wd=python就是字符串
anchor：锚点，一般用来前台定位

http请求方法

http协议中定义有八种请求方法，主要使用两种get和post

get请求：从服务器获取数据下载，不对服务器产生影响会使用get请求
post请求：向服务器发送数据（登录）、上传文件等，会对服务器影响使用post

但是不是所有的查询都使用get 有些反爬网站需要改用post来作为请求方法

请求头常见参数

http协议中向服务器发送一个请求，数据分为三部分，第一个是把数据放到URL中，第二是把数据放到body中（post请求中），第三把数据放到head中

User-Agent ：浏览器名词，这个网络爬虫中经常使用，没有定制 User-Agent就是python 对于反爬虫机制的网站就会轻易判断这个请求是爬虫，因此我们要设置这个值来伪装我们的爬虫
Referer：表明当前这个请求是从哪个Url过来的，这个一般可以用来反爬虫技术，如果不是从指定页面过来的，那么就不会做相应的影响。
Cookie： http协议是无状态的，也就是同一个人发送了两次请求，服务器没有能力知道这两个请求是否来自同一个人。因此这个适合就用cookie来做标识，一般如果想要做登录后才能访问的网站，那么就需要发送cookie信息了

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

爬虫基础
HTTP基本原理 URI、URL、URN（Uninform Resource） URI（Identifier）:统...
GHope阅读 2,167评论 2赞 26
2018-10-29 python 基础测试110题
1、一行代码实现1--100之和利用sum()函数求和 2、如何在一个函数内部修改全局变量利用global 修...
太阳出来我爬山坡阅读 652评论 0赞 0
自我提升（基础技术篇）——http协议扫盲
前言：最近发现自己在网络相关这一块基础很是欠缺，所以准备花时间了解一下，本文主要是讲http协议的一些基础，和一些...
justCode_阅读 2,113评论 0赞 23
python基础知识
集合容器列表： list是一种有序的集合，可以随时添加和删除其中的元素、列表可以存放各种类型的数据列表包含了增...
陳_CHEN_陈阅读 308评论 0赞 0
离开那就要释然
在我们生活中有很多的无奈，既然选择离开那就要学会释然。人一生中会有很多岔路口，需要我们鼓起勇气去抉择。人不...
rose5531阅读 309评论 0赞 1

赞1赞

手机看全文