活学活用Python01:谷歌翻译小助手

[TOC]

写这篇文章的缘由

由于学业需要,我每天都药花大量的时间看论文,而且都是英文论文。作为一个工作了几年再读博的老博士,英语已经忘得差不多了。碰到一些难以理解的段落,就需要借助于谷歌翻译等在线的翻译工具。因此,我最经常做的事情就是:在PDF阅读器中复制一段话,再到谷歌翻译的网页中粘贴,看看自己有没有理解错误。比如这样:


我们看到,出现了两个问题:

  1. 因为换行符造成句子中断,影响了谷歌翻译的准确性。
  2. 每次都要切换到谷歌翻译的网页,手动粘贴进去,也很麻烦。

这两周一直在看申龙斌的python教程,有一天就突然想要自己动手写个python小程序,来解决我上面碰到的两个问题了。

任务分解

我要写的程序要能够解决上面的两个问题,因此要实现以下功能:

  1. 能够替换掉PDF文件段落复制时产生的换行符,替换成空格。
  2. 能够自动打开网页并把翻译结果显示出来。

我们看着两个功能还是太笼统了,仿照申龙斌博客中的思路,按照《如何解题》里面说的,要先把问题分解。1.读取剪贴板,把剪贴板的内容保存成一个字符串2.替换剪贴板里面的换行符为空格3.直接打开替换后的文本的谷歌翻译页面

解决过程

1.读取剪贴板

首先百度以下python读取剪贴板:


比较了一下,发现第二个链接非常的容易懂。使用了一个包叫pyperclip,这个包里面有两个函数copy()paste(),可以在本文的程序中使用。方法如下:

import pyperclip
pyperclip.copy('Hello world.')
print(pyperclip.paste())

就会输出:Hello world.
上面的两行代码就能够读取剪贴板的内容并打印出来了

2.替换换行符

测试了一下,在PDF文件中复制以后,直接使用pyperclip.paste()得到的就是文本,类型是Unicode,查了一下,应该是字符串的一种,可以直接使用python中的字符串的方法。而字符串方法中有一个函数就是replace(‘需要替换的字符’,“想要换成的字符”)
测试一下:

import pyperclip
copyedText= pyperclip.paste()normalizedText = copyedText.replace('\n', ' ')

发现没有反应,于是想到有些换行可能不是\n,也有可能是\r,于是就这样反复尝试,最后发现PDF换行换行很复杂,是\r\n,后来又发现一些小的bug,进行了修改,最终形成的函数是:

normalizedText = copyedText.replace('\r','\\r').replace('\n','\\n').replace('-\\r\\n','').replace("\\r\\n"," ")

至此,已经能够的到正常的文本了

3.直接打开替换后的文本的谷歌翻译页面

Python里面打开网页的函数是webbrowser.open(url)
查看一下刚才的文字翻译的网页的地址:http://translate.google.cn/#en/zh-CN/Abstract%E2%80%94Performing%20predictive%20modelling%2C%20such%20as%20anomaly%0Adetection%2C%20in%20Big%20Data%20is%20a%20difficult%20task.%20This%20problem%20is%0Acompounded%20as%20more%20and%20more%20sources%20of%20Big%20Data%20are%20generated%0Afrom%20environmental%20sensors%2C%20logging%20applications%2C%20and%0Athe%20Internet%20of%20Things.%20Further%2C%20most%20current%20techniques%20for%0Aanomaly%20detection%20only%20consider%20the%20content%20of%20the%20data%20source
可以看出这个地址的结构是这样的:
http://translate.google.cn/#en/zh-CN/sentenceToBeTranslated
那么我们要打开的页面地址就是:
http://translate.google.cn/#en/zh-CN/text_norm
用字符串的方式写就是
url= 'http://translate.google.cn/#en/zh-CN/'+text_norm
然后调用webbrowser来打开新的页面
webbrowser.open(url)

4.设置监听和查重

要让我们的程序不停的监听剪贴板,那么就需要设置一个循环,我这里根据我自己的习惯,设置了每10秒运行一次。

import time
while True:
    time.sleep(10)
    【上述功能代码】

监听设置以后发现不管你有没有复制新的东西,都会每10秒打开一个新页面,这很不爽,因此加上一个查重:设置一个缓冲,把已经得到的文本存放在copyBuff中,如果新的文本来了就和copyBuff对比一下, 不同就翻译,相同就忽略。

while True:
    time.sleep(10)
    copyedText=pyperclip.paste()
    if copyBuff != copyedText:
        copyBuff=copyedText
      【上述功能代码】

最终的代码如下:

import pyperclip
import time
import webbrowser
copyBuff=' '
while True:
    time.sleep(10)
    copyedText=pyperclip.paste()
    if copyBuff!=copyedText:
        copyBuff=copyedText
        normalizedText=copyBuff.replace('\r','\\r').replace('\n','\\n').replace('-\\r\\n','').replace("\\r\\n"," ")
        url='http://translate.google.cn/#en/zh-CN/'+normalizedText
        webbrowser.open(url)
    else:
        print('no change')
5.测试一下

打开python程序,从PDF中复制一段文字,稍等片刻,成功了!感谢CCTV……


总结:

  • 复杂问题先分解
  • pyperclip
  • str.replace()函数
  • time.sleep(seconds)
  • webbrowser.open(url)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,837评论 25 707
  • 内容来自于 iOS文档中 About Text Handling in iOS 部分 ios平台提供了显示及编辑文...
    纵横而乐阅读 6,754评论 2 21
  • 此刻是我們最年輕的時刻,怎麼利用好它呢?過去事以惘然,過去心不可得;未來事未定,未來心亦不可得,唯獨當下呼吸的...
    娑婆荷芳阅读 204评论 0 1
  • 线程安全的含义:当多个线程访问一个对象的时,如果不用考虑这些线程在运行时环境下的调度和交替执行,也不需要进行额外的...
    最愛口香糖阅读 296评论 0 1
  • 异常第57条:只针对异常的情况使用异常Java程序设计的时候,只针对有异常的情况,才考了使用异常。实际上,基于异常...
    艾尔温阅读 417评论 0 51