HTTP
URI - Uniform Resource Identifier
(包括URL/URU)
URL - Uniform Resource Location
URU - Uniform Resource Name (如P2P下载)
URL = 协议 + 域名 + 路径 + 参数
HTTP - Hyper Text Transfer Protocol
HTTPS - Hyper Text Transfer Protocol over Secure Socket Layer (SSL加密)
Request
-
Request Method
GET, POST
HEAD, PUT, DELETE, CONNET, OPTIONS, TRACE -
Request Head 举例
Accept: text/html
Accept-Charset: utf-8
Accept-Encoding: gzip, deflate
Accept-Language: en-US
Content-Length: 300
Content-Type:
application/x-www-form-urlencoded 表单
multipart/form-data 文件
application/json
text/xml
Cookie: clientid=54321
Host: XXX.com:8080
Referer: https://www.XXX.com
User-Agent: 操作系统 浏览器版本 反爬常用 -
Request Body
表单/文件的具体内容
比如Login/name
密码没有直接通过请求体发送服务端
Response
-
Response Status code
1-信息 (收到,继续)
2-成功
3-重定向
4-客户端错误
5-服务器错误 -
Response Head
Content-Type: image/png
Date:
Content-Encoding:
Server:
Set-Cookie:
Expires: -
Response Body
查看:Chrome浏览器单击请求切换到Response
页面大多数返回HTML -- 爬虫技术关注核心
Web API大多数返回JSON -- Python直接解析
HTML&CSSS
HTML - Hyper Text Markup Language
标记各种节点 决定web组件
CSSS-Cascading Style Sheets
布局样式标准
JS-Javascript
实现动态效果
编写爬虫时经常通过CSSS选择器或Xpath对HTML代码进行分析
Beautiful Soup, py query, lxml
抓取后以纯文本,XML或JSON保存到本地或数据库
SQLite, MySQL, MongDB
Session&Cookie
Cookie是以key-value形式储存的客户端数据 存在有效期
Session可以理解成服务端的Cookie 用Map等数据结构
Chrome内查看
Inspect-Applicaiton-Cookies