二、requests模块

requests模块

urlib模块:比较古老,其封装的相关爬虫的操作是比较麻烦,复杂的

requests模块:用法比较简洁并且很高效

requests模块:python是原生的一款基于网络请求的模块,功能非常强大,简单便携,效率极高。

作用:模拟浏览器发请求。

如何使用:

  • 指定url
  • 基于requests模块发起请求
  • 获取响应对象中的数据值
  • 持久化存储

环境安装:

pip install requests

入手采集百度首页

import requests
if __name__ == '__main__':
    # 指定url
    url = "https://www.baidu.com/"
    # 发起请求
    response = requests.get(url=url)
    # 获取请求 返回字符串
    info = response.text
    # 持久化数据
    with open("./数据存储/baidu.html",'w',encoding='utf-8') as fp:
        fp.write(info);
    print("爬取数据结束")

案例

1、UA检测伪装

简易网页采集器(指定关键字搜索保存)

import requests


#UA伪装:User-Agent 请求载体的身份标识
# UA伪装: 门户网站的服务器会检测对应请求的载体身份标识
# 如果检测到请求的载体身份标识为某一款浏览器,
# 说明该请求是一个正常请求,但是如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求
# 服务器端很可能就会拒绝该次请求。
if __name__ == '__main__':
    getInfo = "电影"
    #UA伪装:将对应的User-Agent封装到一个字典中
    headers = {
    'User-Agent' : "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36"
    }
    # 指定url
    url = "https://www.sogou.com/web"
    param = {
        'wd':getInfo
    }
    # 发起请求
    response = requests.get(url=url,params=param,headers=headers)
    # 获取请求 返回字符串
    info = response.text
    # 持久化数据
    with open("./数据存储/"+getInfo+".html",'w',encoding='utf-8') as fp:
        fp.write(info);
    print("爬取数据结束")

2、破解百度翻译

post请求(携带了参数)

响应数据是一组json数据
import json

import requests

# 从response headers信息中的content-type中我们可以知道我们响应得到的数据类型
# python操作json文件通过了两种方法:
# load():用于读取json文件;
# dump():用于写入json文件
if __name__ == '__main__':
    kw = input("请输入你想要的翻译结果:")
    post_url = "https://fanyi.baidu.com/sug"
    header = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'
    }
    data ={
        'kw':kw
    }
    #请求发送
    response = requests.post(url=post_url,data=data,headers=header)
    #获取响应数据,如果确定响应数据是json类型,才可以使用json()
    dict_info = response.json()
    ##存储文件 将字典数据写入到json文件中
    file = open('./数据存储/'+kw+'.json','w',encoding='utf-8');
    json.dump(dict_info,fp = file,ensure_ascii=False)
    print("爬虫数据完成")

3、豆瓣电影抓取

import json

import requests


if __name__ == '__main__':
    url = "https://movie.douban.com/j/chart/top_list"
    header = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'
    }
    param ={
        'type': '24',
        'interval_id': '100:90',
        'action': 'None',
        'start': '0', # 从第几部开始取
        'limit': '100' #一次取多少数据
    }
    #请求发送
    response = requests.get(url=url,params=param,headers=header)
    #获取响应数据,如果确定响应数据是json类型,才可以使用json()
    dict_info = response.json()
    ##存储文件 将字典数据写入到json文件中
    file = open('./数据存储/豆瓣喜剧电影信息.json','w',encoding='utf-8');
    json.dump(dict_info,fp = file,ensure_ascii=False)
    print("爬虫数据完成")

雨果亚马逊选品采集

# 项目目的爬取雨国跨境亚马逊选品信息
# 该网页相关数据包括:产品数据信息。。#最终需要爬取每个产品的详细信息(详情页)---动态加载出的页面数据(不可直接由当前页面的url解析出来)
# 爬取思路:先爬取主页数据再定位到主页各产品名称对应的id(通过首页爬取每个产品对应的产品id) 再对每个详情页发请求
# 验证:用XHR来捕获动态数据包查看动态数据的数据结构与类型

import requests

if __name__ == "__main__":
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }  # 反反爬机制:伪装成用户通过浏览器登陆
    url = 'https://www.cifnews.com/supply/ajax/product/search'
    # 参数的封装
    for page in range(1, 6):
        page = str(page)
        params = {
            'page': page, #第一页
            'size': '40'
        }
        # 将发请求与获取响应数据合并起来 获取到的是带有企业id的字典类型的json数据
        json_ids = requests.get(url=url, headers=headers,
                                 params=params).json()  # 对url发起访问请求;通过post()方法获取请求页面信息,以.json的数据形式。

        id_list = []  # 存储商品的id
        all_data_list = []  # 存储所有的商品详情数据
        # 批量获取不同产品的id值(企业详情页url=原url+产品id)统一的url+不同的参数
        #
        # # 该字典的值是一个列表(列表中的每一个小字典对应一个产品信息)
        for dic in json_ids['data']:  # 遍历列表中的每一个字典并取出id数据
            id_list.append(dic['productCode'])
    print(id_list)

    # 获取商品详情数据 这个地址 每个产品都是写死一个页面数据,所以要保存 需要进行数据处理
    for id in id_list:
        post_url = 'https://www.cifnews.com/ccee/product/'+id
        ##采集的是每个产品信息的网页数据,之后需要进行处理
        detail_info = requests.get(url=post_url).text
        print(detail_info)
        ##可以批量将每个产品的详情数据保存在list中
        # all_data_list.append(detail_json)
        # print(detail_json)

    # # 持久化存储all_data_list
    # fp = open('./数据存储/亚马孙商品.json', 'w', encoding='utf-8')  # 写入并保存数据
    # json.dump(all_data_list, fp=fp, ensure_ascii=False)
    # print('保存成功')
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358

推荐阅读更多精彩内容