Python爬虫 | requests模拟浏览器发送请求

一、什么是requests 模块

requests模块是python中原生的基于网络请求的模块,功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。requests模块作用:模拟浏览器发请求。

二、为什么要使用requests 模块

因为在使用urllib模块的时候,会有诸多不便之处,总结如下:

  • 手动处理url编码
  • 手动处理post请求参数
  • 处理cookie和代理操作繁琐
  • ......

而使用requests模块的优势:

  • 自动处理url编码
  • 自动处理post请求参数
  • 简化cookie和代理操作
  • ......

三、如何使用requests模块

安装: pip install requests

使用流程

  • 指定url
  • 基于requests模块发起请求
  • 获取响应对象中的数据值
  • 持久化存储

requests 模块的各种请求方式

最常用的请求方式就是 post 和 get 请求。params 在 get 请求中使用,data、json在post请求中使用。自动和url进行拼接,发请求。
···
response = requests.get(url, params={'key':'value'})
response = requests.post(url, data={'key':'value'})
···

请求参数

通常请求参数有以下几个

  • url :需要抓取的URL地址
  • headers : 请求头
  • timeout : 超时时间,超过时间会抛出异常

下面,再分享2个其他可能会遇到的参数,关于非常重要的IP参数,在后面进行讲解。

(1)authWeb客户端验证参数

res = requests.get(url, headers=headers, auth=('username','password'))

针对于需要web客户端用户名密码认证的网站
例如:

image
import requests
from lxml import etree
import random
import os


class CodeSpider(object):
    def __init__(self):
        self.url = 'http://code.tarena.com.cn/AIDCode/aid1904/14-redis/'
        self.auth = ('tarenacode', 'code_2013')
        self.ua_list = [
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
            'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0',
            'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .\
            NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)', ]

    def parse_html(self):
        # 获取响应内容
        html = requests.get(url=self.url, headers={'User-Agent': random.choice(self.ua_list)}, auth=self.auth)
        html = html.content.decode('utf-8', 'ignore')

        parse_html = etree.HTML(html)   
        r_list = parse_html.xpath('//a/@href')      # # r_list : ['../','day01','day02','redis_day01.zip']
        for r in r_list:
            if r.endswith('.zip') or r.endswith('.rar'):
                self.save_files(r)

    def save_files(self, r):
        directory = '/home/tarena/AID/redis/'
        if not os.path.exists(directory):
            os.makedirs(directory)

        # 拼接地址,把zip文件保存到指定目录
        url = self.url + r
        # filename: /home/tarena/AID/redis/xxx.zip
        filename = directory + r
        html = requests.get(url=url, headers={'User-Agent': random.choice(self.ua_list)}, auth=self.auth).content

        with open(filename, 'wb') as f:
            f.write(html)
            print('%s下载成功' % r)


if __name__ == '__main__':
    spider = CodeSpider()
    spider.parse_html()

(2)SSL证书认证参数-verify
SSL证书认证参适用于没有经过证书认证机构认证的https类型网站,如果网站抛出 SSLError 异常,则考虑使用此参数。

response = requests.get(url=url,params=params,headers=headers,verify=False) 

verify:

  • True ( 默认 ) 检查证书认证;
  • False(常用)忽略证书认证;

响应对象response的属性

  • text :返回的是Unicode型的数据;取html源码;
  • content :返回的是bytes型也就是二进制的数据。取图片,文件;
  • json() : 返回的是json格式数据;
  • status_code :HTTP响应码;
  • encoding :响应字符编码 response.encoding = 'utf-8';

非结构化数据的保存方式。如压缩文件zip、图片文件等都可以使用非结构化数据的保存方式

with open('xxx.jpg','wb') as f:
    f.write(response.content)

四、User-Agent

  通过自定义请求对象,用于伪装爬虫程序请求的身份。
  User-Agent参数,简称为UA,该参数的作用是用于表明本次请求载体的身份标识。如果我们通过浏览器发起的请求,则该请求的载体为当前浏览器,则UA参数的值表明的是当前浏览器的身份标识表示的一串数据。如果我们使用爬虫程序发起的一个请求,则该请求的载体为爬虫程序,那么该请求的UA为爬虫程序的身份标识表示的一串数据。有些网站会通过辨别请求的UA来判别该请求的载体是否为爬虫程序如果为爬虫程序,则不会给该请求返回响应,那么我们的爬虫程序则也无法通过请求爬取到该网站中的数据值,这也是反爬虫的一种初级技术手段。为了防止该问题的出现,则我们可以给爬虫程序的UA进行伪装,伪装成某款浏览器的身份标识。

UA检测:网站服务器会检测请求的载体身份标识,如果检测到是基于爬虫程序的,则阻止该次请求。

UA伪装(反爬机制):

反爬机制:某些门户网站会对访问该网站的请求中的User-Agent进行捕获和判断,如果该请求的UA为爬虫程序,则拒绝向该请求提供数据。

反反爬策略:将爬虫程序的UA伪装成某一款浏览器的身份标识。

import requests
url = 'http://www.baidu.com/'     
headers={
        'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
    }
request =request.get(url=url,headers=headers)

找到User-Agent,复制下来。

五、requests 模块使用实例

1 基于requests模块的get请求
示例:爬取搜狗指定词条搜索后的页面数据(网页采集器, 动态获取)

import requests
word = input('enter a word:')
url = 'https://www.sogou.com/web'

headers = {                
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}

param = {
    'query':word
}

response = requests.get(url=url,params=param)
page_text = response.text

fileName = word+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)

print(fileName,'爬取成功!')

2 基于requests模块的post请求
示例:登录豆瓣电影,爬取登录成功后的页面数据

import requests
import os

url = 'https://accounts.douban.com/login'                            

data = {                                                    
    "source": "movie",
    "redir": "https://movie.douban.com/",
    "form_email": "131XXXXXXXX",
    "form_password": "***",
    "login": "登录",
}

headers={
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}

response = requests.post(url=url,data=data)
page_text = response.text
with open('./douban111.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

3 基于requests模块ajax的get请求
示例:爬取豆瓣电影分类排行榜中的电影详情数据

import requests
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
}
url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=0&limit=20'

movie_list = requests.get(url=url,headers=headers).json()        
   
all_names = []
for dic in movie_list:
    name = dic['title']                                
    all_names.append(name)
 
print(all_names)

4 基于requests模块ajax的post请求
示例:破解百度翻译

import requests

url = 'https://fanyi.baidu.com/sug'            
wd = input('enter something of English:')
data = {
    'kw':wd
}


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
}

response = requests.post(url=url,data=data,headers=headers)

obj_json = response.json()                        
print(obj_json)

综合练习:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据

import requests
from fake_useragent import UserAgent

ua = UserAgent(use_cache_server=False,verify_ssl=False).random
headers = {
    'User-Agent':ua
}

url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'

all_id_list = []
 
for page in range(1,11):
    data = {
        'on': 'true',
        'page': str(page),
        'pageSize': '15',
        'productName':'',
        'conditionType': '1',
        'applyname':'',
        'applysn':''
}

    json_text = requests.post(url=url,data=data,headers=headers).json()
    for dict in json_text['list']:
        id = dict['ID']                            
        all_id_list.append(id)


post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'        
for id in all_id_list:
    post_data = {
        'id': id
    }
response = requests.post(url=post_url, data=post_data, headers=headers)

    if response.headers['Content-Type'] == 'application/json;charset=UTF-8':
        json_text = response.json()
        print(json_text['businessPerson'])

查看是不是动态加载页面,就在开发者工具中的response中搜索。不能搜到就证明是动态加载出来的。

其他概念:

  • 结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。
  • 非结构化数据:包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容