活学活用Python01：谷歌翻译小助手

[TOC]

写这篇文章的缘由

由于学业需要，我每天都药花大量的时间看论文，而且都是英文论文。作为一个工作了几年再读博的老博士，英语已经忘得差不多了。碰到一些难以理解的段落，就需要借助于谷歌翻译等在线的翻译工具。因此，我最经常做的事情就是：在PDF阅读器中复制一段话，再到谷歌翻译的网页中粘贴，看看自己有没有理解错误。比如这样：

我们看到，出现了两个问题：

因为换行符造成句子中断，影响了谷歌翻译的准确性。
每次都要切换到谷歌翻译的网页，手动粘贴进去，也很麻烦。

这两周一直在看申龙斌的python教程，有一天就突然想要自己动手写个python小程序，来解决我上面碰到的两个问题了。

任务分解

我要写的程序要能够解决上面的两个问题，因此要实现以下功能：

能够替换掉PDF文件段落复制时产生的换行符，替换成空格。
能够自动打开网页并把翻译结果显示出来。

我们看着两个功能还是太笼统了，仿照申龙斌博客中的思路，按照《如何解题》里面说的，要先把问题分解。1.读取剪贴板，把剪贴板的内容保存成一个字符串2.替换剪贴板里面的换行符为空格3.直接打开替换后的文本的谷歌翻译页面

解决过程

1.读取剪贴板

首先百度以下python读取剪贴板：

比较了一下，发现第二个链接非常的容易懂。使用了一个包叫pyperclip，这个包里面有两个函数copy()和paste()，可以在本文的程序中使用。方法如下：

import pyperclip
pyperclip.copy('Hello world.')
print(pyperclip.paste())

就会输出：Hello world.
上面的两行代码就能够读取剪贴板的内容并打印出来了

2.替换换行符

测试了一下，在PDF文件中复制以后，直接使用pyperclip.paste()得到的就是文本，类型是Unicode，查了一下，应该是字符串的一种，可以直接使用python中的字符串的方法。而字符串方法中有一个函数就是replace（‘需要替换的字符’，“想要换成的字符”）
测试一下：

import pyperclip
copyedText= pyperclip.paste()normalizedText = copyedText.replace('\n', ' ')

发现没有反应，于是想到有些换行可能不是\n,也有可能是\r，于是就这样反复尝试，最后发现PDF换行换行很复杂，是\r\n，后来又发现一些小的bug，进行了修改，最终形成的函数是：

normalizedText = copyedText.replace('\r','\\r').replace('\n','\\n').replace('-\\r\\n','').replace("\\r\\n"," ")

至此，已经能够的到正常的文本了

3.直接打开替换后的文本的谷歌翻译页面

Python里面打开网页的函数是webbrowser.open(url)
查看一下刚才的文字翻译的网页的地址：http://translate.google.cn/#en/zh-CN/Abstract%E2%80%94Performing%20predictive%20modelling%2C%20such%20as%20anomaly%0Adetection%2C%20in%20Big%20Data%20is%20a%20difficult%20task.%20This%20problem%20is%0Acompounded%20as%20more%20and%20more%20sources%20of%20Big%20Data%20are%20generated%0Afrom%20environmental%20sensors%2C%20logging%20applications%2C%20and%0Athe%20Internet%20of%20Things.%20Further%2C%20most%20current%20techniques%20for%0Aanomaly%20detection%20only%20consider%20the%20content%20of%20the%20data%20source
可以看出这个地址的结构是这样的：
http://translate.google.cn/#en/zh-CN/sentenceToBeTranslated
那么我们要打开的页面地址就是：
http://translate.google.cn/#en/zh-CN/text_norm
用字符串的方式写就是
url= 'http://translate.google.cn/#en/zh-CN/'+text_norm
然后调用webbrowser来打开新的页面
webbrowser.open(url)

4.设置监听和查重

要让我们的程序不停的监听剪贴板，那么就需要设置一个循环，我这里根据我自己的习惯，设置了每10秒运行一次。

import time
while True:
    time.sleep(10)
    【上述功能代码】

监听设置以后发现不管你有没有复制新的东西，都会每10秒打开一个新页面，这很不爽，因此加上一个查重：设置一个缓冲，把已经得到的文本存放在copyBuff中，如果新的文本来了就和copyBuff对比一下，不同就翻译，相同就忽略。

while True:
    time.sleep(10)
    copyedText=pyperclip.paste()
    if copyBuff != copyedText:
        copyBuff=copyedText
      【上述功能代码】

最终的代码如下：

import pyperclip
import time
import webbrowser
copyBuff=' '
while True:
    time.sleep(10)
    copyedText=pyperclip.paste()
    if copyBuff!=copyedText:
        copyBuff=copyedText
        normalizedText=copyBuff.replace('\r','\\r').replace('\n','\\n').replace('-\\r\\n','').replace("\\r\\n"," ")
        url='http://translate.google.cn/#en/zh-CN/'+normalizedText
        webbrowser.open(url)
    else:
        print('no change')

5.测试一下

打开python程序，从PDF中复制一段文字，稍等片刻，成功了！感谢CCTV……

总结：

复杂问题先分解
pyperclip包
str.replace()函数
time.sleep(seconds)
webbrowser.open(url)

最后编辑于：2017.12.06 03:19:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 212,332评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,508评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,812评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,607评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,728评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,919评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,071评论 3赞 410
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,802评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,256评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,576评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,712评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,389评论 4赞 332
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,032评论 3赞 316
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,798评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,026评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,473评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,606评论 2赞 350