2.利用urllib.urlopen向有道翻译发送数据获得翻译结果

下面是今天的第二个爬虫,听名字就感觉比之前那个有意思了很多hhhhhhh。

```

from urllib import request

from urllib import parse

import json

url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'

Form_Data={}

Form_Data['i']='love'

Form_Data['from']='Auto'

Form_Data['to']='Auto'

Form_Data['smartresult']='dict'

Form_Data['client']='fanyideskweb'

Form_Data['salt']='1510400502943'

Form_Data['sign']='dfdd0d2494764cd83f2cab4e39f29f85'

Form_Data['doctype']='json'

Form_Data['version']='2.1'

Form_Data['keyfrom']='fanyi.web'

Form_Data['action']='FY-BY-REALTIME'

Form_Data['typoResult']='flase'

data=parse.urlencode(Form_Data).encode('utf-8')

response=request.urlopen(url,data)

html=response.read().decode('utf-8')

translate_results=json.loads(html)

#translate_results=translate_results['translateResult'][0][0]['tgt']

print("翻译内容: %s" % (translate_results['translateResult'][0][0]['tgt']))

```

话说这个粘代码的到底怎么搞。。。

首先引入urllib库的request函数和parse函数。request函数之前已经提到过了,不过这次的调用与上次略有不同,稍后和parse函数还有jason库细讲。

下面打开有道页面,输入一个字并点翻译。介于今天是单身狗节,我输了一个love。


接下来右键——>检查/审查元素



点左边那栏那个translate_os?smartresult,然后就会出来右边那一堆东西。

点击Network——>Headers,下面需要留意一些东西:

1.General下显示本页面的url

2.Form Data


Form_Data={}用于创建一个字典,接下去那几行结构类似的代码均根据刚才Form Data那的值直接对字典中不存在的key进行赋值来添加。

字典属性的特性和操作网上的讲解太多啦不赘述了。

下面说一下urlopen的data参数

我们可以使用data参数,向服务器发送数据。根据HTTP规范,GET用于信息获取,POST是向服务器提交数据的一种请求,再换句话说:

从客户端向服务器提交数据使用POST;

从服务器获得数据到客户端使用GET(GET也可以提交,暂不考虑)。

如果没有设置urlopen()函数的data参数(就像之前我们的调用),HTTP请求采用GET方式,也就是我们从服务器获取信息,如果我们设置data参数,HTTP请求采用POST方式,也就是我们向服务器传递数据。

data参数有自己的格式,它是一个基于application/x-www.form-urlencoded的格式,具体格式我们不用了解, 因为我们可以使用urllib.parse.urlencode()函数将字符串自动转换成上面所说的格式。

可以说,urlencode()主要作用就是将url附上要提交的数据。Post的数据必须是bytes或者iterable of bytes,不能是str,因此需要进行encode()编码。这里提一下,在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。具体的字符编码的问题见这里:

www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001431664106267f12e9bef7ee14cf6a8776a479bdec9b9000

接下来读取信息并解码。JSON是一种轻量级的数据交换格式,我们需要从爬取到的内容中找到JSON格式的数据,这里面保存着我们想要的翻译结果,再将得到的JSON格式的翻译结果进行解析。


下面运行看看,一开始失败了,然后据说是有道改变了翻译接口现在爬不了了有点失望。但又看到说把url那里的_o去掉即可。试了一下果然可以。原因是现在抓包获取的请求地址有问题,不是最后的翻译接口,应该是后续需要处理,而有道翻译的处理恰好是去掉那_o。


再多提一句json:

分别print(html)和print(translate_results)观察json的效果:


可以看到,通过loads的方法,把字符串转换成字典。

具体的在这里:www.cnblogs.com/bainianminguo/p/6676067.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容