登录注册写文章

python爬虫基础篇（1）

python爬虫基础篇（1）

背景：

首先提出两个问题，为什么要介绍爬虫呢？为什么使用python进行爬虫呢？在进行问题分析的时候，寻找解决方案的时候，第一步就是数据采集，数据分析。有些数据可以从数据库直接获取，有时候从数据库获取不是很方便（没有权限），另一种方式就是从利用爬虫从网页获取。

定义：

向网站发起请求，获取资源后分析并提取有用数据的程序
流程：爬虫一共分为4步骤：

获取url 发起request请求
获取服务器的response，
解析数据
数据存储

爬虫流程.png

分类：

根据获取网络数据的方式可以分为：
1，浏览器提交请求--->下载网页代码--->解析成页面（常用的方式）
2，模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中（用到第三方框架，例如：selenium）

根据request的请求方式可以分为
1，get请求，不需要表单
2，post请求，需要表单

根据获取的数据不同可以分为
1，静态抓取
2，动态抓取

Request请求

url：就是你知道的那个url
header：
-- User-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做一个非法用户host；
-- cookies：cookie用来保存登录信息
爬虫一定要加上请求头，否则很容被识别出来，403禁止访问

以上是对爬虫的基本概述，接下来会对每一部分进行展开讲解

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

爬虫基础
HTTP基本原理 URI、URL、URN（Uninform Resource） URI（Identifier）:统...
GHope阅读 6,423评论 2赞 26
Python爬虫第一天：爬虫概述及抓包工具和urllib库
内容简述: 一:爬虫概述和学习路线二:协议和请求方法三:抓包工具-谷歌浏览器和fiddler安装及...
Davis_hang阅读 5,283评论 0赞 1
Python爬虫urllib2库的基本使用系列(三)
1. 网页抓取所谓网页抓取，就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来...
rhlp阅读 4,583评论 0赞 0
python爬虫01
爬虫概述 1. 目录清单爬虫简介通用爬虫和聚焦爬虫网络请求那些事儿网络数据抓包分析 2. 章节内容 2.1...
小皇帝s阅读 3,926评论 0赞 1
Python爬虫框架Scrapy入门与实践之爬取豆瓣电影Top250榜单
前言爬虫就是请求网站并提取数据的自动化程序，其中请求，提取，自动化是爬虫的关键。Python作为一款出色的胶水语...
王奥OX阅读 8,800评论 1赞 8

1赞2赞

赞赏

手机看全文