Google翻译爬虫探索

爬虫看似简单实则复杂。

老师布置了一个汉化一个json数据的任务，大概有800多条英文要翻译，哎，过年了，郁闷的事情还是交给计算机处理好一点。

一、曲折摸索之路

1.1 JavaScript来进行前端抓取

呵呵，我都不晓得我哪里来的勇气用js来做前端爬虫，添加了Jquery等组件，使用BootStrap建立了一个前端页面，还用FileSaver.js和jquery.json.js来做了保存json对象到文件的功能，好像还很6的样子。然而实现Ajax请求报错啦：

/* 保存json到文件 */
function saveAsJsonFile(object){
    var jsonStr = $.toJSON(object);
    var blob = new Blob([jsonStr], {type: "text/js;charset=utf-8"});
    saveAs(blob, "json.js");
}

No 'Access-Control-Allow-Origin' header is present on the requested resource.'

这就是著名的js跨域错误，由于Google家的网站不是我的，所以无解。

1.2 node来进行爬虫

先写两个地址:

[1] http://translate.google.cn/#en/zh-CN/hello
[2] http://translate.google.cn/translate_a/single?client=t&sl=en&tl=zh-CN&hl=zh-     
CN&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca&dt=rw&dt=rm&dt=ss&dt=t&ie=UTF-8&oe=UTF-8&source=bh&ssel=0&tsel=0&kc=1&tk=846673.696795&q=hello

采用node的express，superagent，cheerio来对google的翻译地址[1]进行爬取，然而得到的没有翻译结果，只有网站的html结构，原来翻译的数据是通过Js来生成的，看来还是得去找ajax的api地址[2]，正当我觉得搞定了之后，换一个单词，api就不行了，why？地址难道还要经过验证？

二、迷途知返

通过几个技术博客的搜索，找到了原因，关键在于api参数tk是动态生成的。在[1]地址返回的源码里面藏着这样一个代码：
TKK=eval('((function(){var a\x3d1394505672;var b\x3d2768463696;return 412298+\x27.\x27+(a+b)})
tk值就和这个TKK值有联系的，网上已经有人找到了生成tk值得js函数，我猜测应该就在
Google网上的那几个js里面，有时间可以自己去找找，这样就可以自己实现调用Google Api来帮我翻译喽。

三、意外惊喜

正当我要动手写代码的时候，意外发现了一个开源的翻译集项目translateSet，里面就封装好了Google翻译，百度翻译等的接口，哎呀，我的吗，为何不早点发现，花了一下午的时间啊，几行代码就OK：

注意: json文件要严格按照标准来，双引号里面用单引号，{}要在开始和结尾，json文件要选无Bom的utf-8格式

Class.forName("com.lsj.trans.GoogleDispatch");  
Dispatch dispatch = Dispatch.Instance("google");
zhResult = dispatch.Trans("en", "zh", prepareEnStr); // 英文翻译为中文

所有主机检查都在{0}注册的主机上传递。注意：在未注册的{1}个主机上跳过了主机检查。
在未注册的{0}个主机上跳过主机检查。
主机检查已成功更新
主机检查更新失败
没有注册的主机
...

看见一行行的的中文输出，我笑了，不愧是Google，人工智能大法，已经超出我的翻译能力了。(翻译的文本里面不要包含
，不然会返回英文)

然而，突然间，Google把我屏蔽了。。。乐极生悲啊

四、总结

爬虫两大难题：

js 请求的api地址的计算
一些网站会识别异常流量，拦截爬虫请求

最后编辑于：2017.12.05 06:20:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,080评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,422评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,630评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,554评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,662评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,856评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,014评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,752评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,212评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,541评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,687评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,347评论 4赞 331
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,973评论 3赞 315
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,777评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,006评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,406评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,576评论 2赞 349