L7:爬虫基本原理讲解

什么是爬虫

请求网站 并 提取数据 的 自动化程序

爬虫的基本流程

  1. 发起请求(Request)
  2. 响应(Response)
  3. 解析
  4. 保存数据

Request

  1. 请求方式:get、post
  2. 请求url
  3. 请求头
  4. 请求题(post用)

Response

  1. 响应状态
  2. 响应头
  3. 响应体

解析方式

  1. 直接解析
  2. Json解析
  3. 正则
  4. BeautifulSoup、PyQuery、Xpath等

爬虫可以抓什么数据

  1. 网页文本
  2. 图片
  3. 视频
  4. 其它

Js渲染问题

  1. 分析Ajax请求
  2. Selenuim/WebDriver
  3. Splash
  4. PyV8、Ghost.py

保存数据

  1. 文本
  2. 关系型数据库
  3. 非关系型数据库
  4. 二进制文件
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,858评论 19 139
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 14,376评论 4 46
  • 背景 部门(东方IC、图虫)业务驱动,需要搜集大量图片资源,做数据分析,以及正版图片维权。前期主要用node做爬虫...
    字节跳动技术团队阅读 12,312评论 1 67
  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 6,483评论 2 26
  • 上一篇:6.Python爬虫常用库的安装下一篇:8.Urllib库基本使用 一、什么是爬虫    简单理解为:请求...
    在努力中阅读 3,372评论 0 1

友情链接更多精彩内容