requests使用get/post抓取数据踩过的坑

不知道初入门python爬虫的朋友是否有过跟我一样的经历,书是早几年的,书上的示例代码可能已经不适用了,需要做一些调整,才能将程序跑通。本人在学习python前三章的内容,就没少碰到这样的尴尬事,为此耗费了较多精力搜索、查阅相关资料。

前三章主要讲如何通过python的requests库使用get/post方法爬取网页或者API数据。本文说说我在这方面踩的坑。

1)安装requests库

书上的建议在pycharm中安装requests库,即打卡pycharm,单击“file”(文件菜单),选择“default settings”(默认设置)命令,如下图

图1

选择“project interpreter”(项目编辑器)命令,确认当前选择的编译器,然后单击右上角的加号,如下图

图2

在搜索框输入:requests(注意,一定要输入完整,不然容易出错),勾选“Install to user's site packages directory”(安装到用户的站点库目录)选项,如果不勾选该选项则会安装在临时目录中,然后单击左下角的“Install Package”(安装库)按钮,如下图

图3

到这一步就悲剧了,跟书上展示的完全不一样,此路不通。而书中的下一步应该如下图一般

截取自其它网页

本人从网上查阅了很多资料,至今都无法修复图3中“nothing to show”的情况,如果你有相应的解决办法,欢迎一起讨论哦。

2)get/post方法调用

I、get方法获取数据

书上只简单的给了一个示例,示例如下

# 使用GET方式抓取数据

import requests# 导入requests包

url ='http://www.cntour.cn/'

strhtml = requests.get(url)# GET方式获取网页数据

print(strhtml.text)

注:requests.get(url)只适用于不需要表头参数的信息获取,当API接口对表头数据有要求时,该方法已不使用,如下图API接口

阿里云市场上的天气信息API接口
接口的python示例代码

python3已经删除了urllib2的调用,若用requests调用接口,该代码要更改为

#获取城市列表

import requests#导入requests包

import json#导入json包

host ='http://weather-ali.juheapi.com'

path ='/weather/citys'

method ='GET'

appcode ='65070e518c474ff68837606434083cfa'

querys ='dtype=json'

bodys = {}

url = host + path +'?' + querys

headers = {'Authorization':'APPCODE ' + appcode}       #设置http包头

response = requests.get(url,headers=headers)        #调用http接口

# print(response)

data = response.text#获取response文本

# print(data)

data = json.loads(data)       #将str字符串转换成dict字典

del data['resultcode']          #通过del删除字典的前两个元素

del data['reason']

print(data)

for item in data['result']:

     print(type(item))

    print(item)

注:API接口调用时,必传表头信息,表头信息的设置和接口的调用如下两行代码所示

headers = {'Authorization':'APPCODE ' + appcode}       #设置http包头

response = requests.get(url,headers=headers)        #调用http接口

II、post方法爬取百度翻译上的信息

输入网址“https://fanyi.baidu.com/?aldtype=16047#zh/en/”,按F12进入谷歌开发者模式,在待翻译框中输入“我爱中国”,显示如下

图4
图5

post方法获取网站信息,信息的爬取是动态的,代码中需要包含Request URL、Request Headers、Form Data的信息,三者缺一不可。代码如下:

# 使用POST抓取数据

import requests

import json

def get_translate_date(word =None):

      url ='https://fanyi.baidu.com/v2transapi'

      chinese = word

      form_data =                        {'from':'zh','to':'en','query':chinese,'transtype':'realtime','simple_means_flag':'3','sign':'731618.1034963','token':'595cdd9cc5535f5221b042f98a8dff9e'}

      request_headers = {'Accept':'*/*','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Connection':'keep-alive', \

'Content-Length':'154','Content-Type':'application/x-www-form-urlencoded; charset=UTF-8','Cookie':'REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BIDUPSID=44BBBD72ED6CC7036FE60E4B97D24B27; PSTM=1494408740; hasSeenTips=1; MCITY=-179%3A; BDUSS=9NU1RzQ3pMc2p0Y1FrNlhCR3N5dDZ6ekl0cXdZUHJKQ3VUN1dtRjgydHRZRUJjQUFBQUFBJCQAAAAAAAAAAAEAAADNlc0beWV6aTA4MDYxNzE3AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAG3TGFxt0xhcQW; BAIDUID=5AACF8785E214AF7E5AD9394BE0D9F82:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_PS_PSSID=1446_21125_28607_28584_26350_28603_20718; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=5; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1552198524; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D', \

'Host':'fanyi.baidu.com','Origin':'https://fanyi.baidu.com','Referer':'https://fanyi.baidu.com/?aldtype=16047','User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Mobile Safari/537.36', \

'X-Requested-With':'XMLHttpRequest'}

# 请求表单数据

    response = requests.post(url,data = form_data,headers = request_headers)

# 将JSON格式字符串转字典

    content = json.loads(response.text)

# 打印翻译后的数据

    print(content['trans_result']['data'][0]['dst'])

if __name__ =='__main__':

    get_translate_date('我爱中国')

注:输入的中文不同,Form Data中的sign和token会不同,本人暂未解决该问题,期待与大家一起讨论批量出入中文时,该如何动态获取Form Data中的sign和token

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容