爬虫是什么?

为什么要学习爬虫呐?

*    学习爬虫,可以私人订制一个搜索引擎。

*    大数据时代,要进行数据分析,首先要有数据源。

*   对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化。

首先向大家简单的介绍一下什么是爬虫?

模拟客户端向服务器端发起网络请求,接收请求的响应。按照一定的规则(正则,xpath,beautifulsoup4),自动的抓取互联网信息(数据)

那么爬虫的大致流程:

第一步:分析网站,得到目标url根据url,

第二步:发起请求,获取页面的HTML源码(从页面源码中获取数据)

** 提取到目标数据,桌数据的筛选和持久化的存储

** 从页面中提取到新的url地址,

第二部操作爬虫结束:所有的目标url 都提取完毕,并得到数据,而且没有其他的请求任务了,这就意味这爬虫结束

爬虫有:通用爬虫/聚焦爬虫

聚焦爬虫:通常我们自己撸的为聚焦爬虫面向主题爬虫、面向需求爬虫:会针对某种特定的能容去爬取信息,而且保证内容需求尽可能相关

通用爬虫呐就是搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。

爬虫中请求获取用的包有  urllib  /   requests

urllib 

#构建一个request对象

req = request.Request(url,headers=headers)

#发起请求

response = request.urlopen(req)

# 返回结果,请求状态

print(response.status)/print(response.text)

requests

response=requests.get(url,headers=headers)

print(response.status_code)

print(response.text)

当我们首先获取到首页或则摸个连接后进一步对信息进行提取,去掉无用的信息,这时我们就会用到正则啦,xpath啦,,beautifulsoup4等等

首先正则用法:正则表达式 – 语法 | 菜鸟教程

xpath用法:  XPath 语法

数据存储(mysql)

import pymysql

conn=pymysql.connect(host='localhost',port=3307,user='root',password='密码',db='表名',charset='utf8')

sql =INSERT INTO lagou (%s)VALUES (%s)

#创建游标(执行sql语句)

cursor = mysql_client.cursor()

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 前言 简单来说互联网是由一个个站点和网络设备组成的大网,我们通过浏览器访问站点,站点把HTML、JS、CSS代码返...
    嗨学编程阅读 1,037评论 0 0
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,780评论 4 46
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,783评论 6 28
  • 水边疏柳喑荷塘, 榭台斜雨入桂香。 万家灯火送夕照, 阑珊孤荧伴文章。
    向阳人家阅读 266评论 4 8
  • 今天是学习吉他的第一天。由于培养新习惯是需要时间和精力的,一次不要培养太多新习惯,暂时将练习哑铃修改为练习吉他,以...
    爱跑步的coder阅读 151评论 0 1