爬虫是什么？

为什么要学习爬虫呐？

* 学习爬虫，可以私人订制一个搜索引擎。

* 大数据时代，要进行数据分析，首先要有数据源。

* 对于很多SEO从业者来说，从而可以更好地进行搜索引擎优化。

首先向大家简单的介绍一下什么是爬虫？

模拟客户端向服务器端发起网络请求，接收请求的响应。按照一定的规则(正则，xpath,beautifulsoup4)，自动的抓取互联网信息(数据)

那么爬虫的大致流程：

第一步：分析网站，得到目标url根据url，

第二步：发起请求，获取页面的HTML源码（从页面源码中获取数据）

** 提取到目标数据，桌数据的筛选和持久化的存储

** 从页面中提取到新的url地址，

第二部操作爬虫结束：所有的目标url 都提取完毕，并得到数据，而且没有其他的请求任务了，这就意味这爬虫结束

爬虫有：通用爬虫/聚焦爬虫

聚焦爬虫：通常我们自己撸的为聚焦爬虫面向主题爬虫、面向需求爬虫：会针对某种特定的能容去爬取信息，而且保证内容需求尽可能相关

通用爬虫呐就是搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。

爬虫中请求获取用的包有 urllib / requests

urllib

#构建一个request对象

req = request.Request(url,headers=headers)

#发起请求

response = request.urlopen(req)

# 返回结果，请求状态

print(response.status)/print(response.text)

requests

response=requests.get(url,headers=headers)

print(response.status_code)

print(response.text)

当我们首先获取到首页或则摸个连接后进一步对信息进行提取，去掉无用的信息，这时我们就会用到正则啦，xpath啦，,beautifulsoup4等等

xpath用法： XPath 语法

数据存储(mysql)

import pymysql

conn=pymysql.connect(host='localhost',port=3307,user='root',password='密码',db='表名',charset='utf8')

sql =INSERT INTO lagou (%s)VALUES (%s)

#创建游标(执行sql语句)

cursor = mysql_client.cursor()