爬虫基础

HTTP

URI - Uniform Resource Identifier
(包括URL/URU)
URL - Uniform Resource Location
URU - Uniform Resource Name (如P2P下载)

URL = 协议 + 域名 + 路径 + 参数
HTTP - Hyper Text Transfer Protocol
HTTPS - Hyper Text Transfer Protocol over Secure Socket Layer (SSL加密)

Request

  • Request Method
    GET, POST
    HEAD, PUT, DELETE, CONNET, OPTIONS, TRACE
  • Request Head 举例
    Accept: text/html
    Accept-Charset: utf-8
    Accept-Encoding: gzip, deflate
    Accept-Language: en-US
    Content-Length: 300
    Content-Type:
    application/x-www-form-urlencoded 表单
    multipart/form-data 文件
    application/json
    text/xml
    Cookie: clientid=54321
    Host: XXX.com:8080
    Referer: https://www.XXX.com
    User-Agent: 操作系统 浏览器版本 反爬常用
  • Request Body
    表单/文件的具体内容
    比如Login/name
    密码没有直接通过请求体发送服务端

Response

  • Response Status code
    1-信息 (收到,继续)
    2-成功
    3-重定向
    4-客户端错误
    5-服务器错误
  • Response Head
    Content-Type: image/png
    Date:
    Content-Encoding:
    Server:
    Set-Cookie:
    Expires:
  • Response Body
    查看:Chrome浏览器单击请求切换到Response
    页面大多数返回HTML -- 爬虫技术关注核心
    Web API大多数返回JSON -- Python直接解析

HTML&CSSS

HTML - Hyper Text Markup Language
标记各种节点 决定web组件

CSSS-Cascading Style Sheets
布局样式标准

JS-Javascript
实现动态效果

编写爬虫时经常通过CSSS选择器或Xpath对HTML代码进行分析
Beautiful Soup, py query, lxml
抓取后以纯文本,XML或JSON保存到本地或数据库
SQLite, MySQL, MongDB

Session&Cookie

Cookie是以key-value形式储存的客户端数据 存在有效期
Session可以理解成服务端的Cookie 用Map等数据结构

Chrome内查看
Inspect-Applicaiton-Cookies

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容