1.利用python自动翻译

对于程序员来说经常遇到英文手册,本文就是作者在工作过程中遇到英文的.chm格式的英文手册界面如图1所示,为了方便查询手册,利用python编程,网络在线翻译文档。具体的实现如下:


图1.原英文手册截图

1.利用windows系统自带的hh.exe文件还原.chm文件
进入cmd 使用语句 hh -decompile 目标文件夹 源CHM文件名
我使用的实例如图2所示


图2.还原.chm文件

还原后的文件如图3所示


图3.还原后的图片

2.还原后的文件包括各种文件类型,而我们需要翻译的是.htm文件类型。所以我们需要获取还原后的文件夹中的所有.html文件,这里就会用到编程语言中的递归,具体代码如下:
#获取所有的html 文件
def getHtmlFiles(dir):

    global htmlFiles
    fileNames = os.listdir(dir)
    for i in range(len(fileNames)):
        if fileNames[i].__contains__(".htm"):
            htmlFiles.append(dir+"\\"+fileNames[i])
            print(dir+"\\"+fileNames[i])

    for i in range(len(fileNames)):
        if os.path.isdir(dir + "\\" + fileNames[i]):
            getHtmlFiles(dir + "\\" + fileNames[i])

打印出的文件路径如图4所示


图4.打印的所有.htm文件路径

3.以上获取到htm文件路径后,我们就可以根据路径读取htm的文件内容,实际操作过程中,我将翻译的结果替代htm的英文后,用浏览器打开会出现乱码,因此先要删除htm文件中关于语言的设置头文件。具体代码如下:

#删除头文件解决中文乱码
def deleteHtmlHead(index,path):
    print('==1_删除头文件中的属性解决中文乱码Start==')
    print('****'+str(index)+'****'+str(path))

    filedata = ""
    with open(path, "r") as html:
        encoding = 'UTF-8'
        # print("hhhhhhhhhhhhhhhhhhhhhhhh")
        for line in html:
            # print(line)
            if line.__contains__('<meta http-equiv="Content-Language" content="en-us">'):
                line = ''
            if line.__contains__('<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">'):
                line = ''
            if line.__contains__('charset=windows-1252'):
                line = ''
            if line.__contains__('doctype HTML'):
                line = ''
            filedata += line

    with open(path, "w") as html:
        html.write(filedata)
    print('==1_删除头文件中的属性解决中文乱码END==')

4.原始的.htm文件打开后如图5所示。


图5.原始的htm内容

提取内容的文本可使用BeautifulSoup或者htmlparser 使用过程中没有得到理想的效果,因此我使用代码获取'>'与'<'之间的值来获取。其实翻译的准确性与否就在于能否准确的提取出.htm文件中的英文文本。在实际的编程过程中有许多特殊字符串情况需要处理,而本人做的不够完美。
5.将获取到的英文文本调用有道的翻译接口进行翻译
6.用翻译的中文结果替换原文件中的英文完成翻译
4-6过程的具体代码如下:

#获取翻译结果
def translator(str):
    """
    input : str 需要翻译的字符串
    output:translation 翻译后的字符串
    """
    # API
    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null'
    # 传输的参数, i为要翻译的内容
    key = {
        'type': "AUTO",
        'i': str,
        "doctype": "json",
        "version": "2.1",
        "keyfrom": "fanyi.web",
        "ue": "UTF-8",
        "action": "FY_BY_CLICKBUTTON",
        "typoResult": "true"
    }
    # key 这个字典为发送给有道词典服务器的内容
    response = requests.post(url, data=key)
    # 判断服务器是否相应成功
    if response.status_code == 200:
        # 通过 json.loads 把返回的结果加载成 json 格式
        if response.text==None:
            print("有道词典None")
            return None
        else:
            if (response.text.__contains__('非常抱歉,来自您ip的请求异常频繁,为了保护其他用户的正常访问,只能暂时禁止您目前的访问。')):
                print("非常抱歉,来自您ip的请求异常频繁")
                return None
            else:
                result = json.loads(response.text)
        #         print ("输入的词为:%s" % result['translateResult'][0][0]['src'])
        #         print ("翻译结果为:%s" % result['translateResult'][0][0]['tgt'])
              #  translation = result['translateResult'][0][0]['tgt']
                translation = result['translateResult']
                return translation
    else:
        print("有道词典调用失败")
        # 相应失败就返回空
        return None

def getEnContentAndTrans(index,path):
    print('==2_处理文本分割Start==')
    print('****'+str(index)+'****'+str(path))
    html = open(path,"r")
    orgContent = html.read()
    list=[]
    if orgContent.__contains__('Example (C)'):
        list = orgContent.split('Example (C)')
    elif orgContent.__contains__('Example</span> (C)'):
        list = orgContent.split('Example</span> (C)')
    else:
        list = orgContent.split('Example (C)')
    html.close()
    print('==2_处理文本分割 END==')
    print('==3_截取英文字段并翻译Start==')
    print('****'+str(index)+'****'+str(path))
    dealText = list[0]
    chTransText = dealText

    totalSize = len(dealText)

    beginPosition = 0
    findLeft = True
    leftPosition = 0
    rightPosition = 0
    enTextList=[]

    for i in range(beginPosition,totalSize):
        if dealText[i]==">" and findLeft:
            beginPosition=i
            leftPosition = i;
            findLeft = False
        if dealText[i]=="<" and not findLeft:
            beginPosition = i
            rightPosition = i
            findLeft = True

            enText = dealText[leftPosition+1:rightPosition]
            checkText = re.sub("\s", "", enText)
            #屏蔽&nbsp;
            checkNbspText = checkText
            checkNbspText = checkNbspText.replace('&nbsp;', '')
            checkNbspText = checkNbspText.replace('\n', '')
            checkNbspText = checkNbspText.replace(' ', '')
            checkNbspText = checkNbspText.replace('\t', '')
            #屏蔽大写字母和数字
            checkNum = checkNbspText
            checkNum = checkNum.replace('.','')

            isDigit = checkNum.isdigit()
            isUpcase = checkNum.isupper()

            if (len(checkText))>0 and len(checkNbspText)>0 and isDigit==False and isUpcase==False:
                transResult = translator(enText)
                # if enText.__contains__('With J1939, the Rx buffer is reserved for this CAN channel'):
                #     print('ssssssssssssssssssss')
                ch=""
                if transResult==None:
                    print("NONENONENONENONENONENONE")
                    sys.exit(0)
                else:
                    for i in range(len(transResult)):
                        for j in range(len(transResult[i])):
                            item = transResult[i][j]
                            chx = item['tgt']
                            ch+=chx
                    print(enText+'___'+ch)
                    #dealText = dealText.replace(enText,ch,1)
                    if enText.__contains__('CAN') or enText.__contains__('Can') or enText.__contains__('can'):
                        chTransText = chTransText.replace(enText, 'CAN'+ch, 1)
                    elif ch.__contains__('手动RC系列30'):
                        ch=ch.replace('手动RC系列30','RC30系列手册',1)
                        chTransText = chTransText.replace(enText, ch, 1)
                    else:
                        chTransText = chTransText.replace(enText, ch, 1)
            else:
                if len(checkText)>0:
                    print('%%%%%%'+enText)

                    #enTextList.append(enText)
    print('==3_截取英文字段并翻译 END==')
    print('==4_将翻译后的文件保存Start==')
    print('****'+str(index)+'****'+str(path))
    with open(path,"w") as html:
        chTransText=chTransText.replace('。','.')
        html.write(chTransText)

        if len(list)>1:
            # html.write('Example')
            # if orgContent.__contains__('Example (C)'):
            #     html.write('Example (C)')
            # elif orgContent.__contains__('Example</span> (C)'):
            #     html.write('Example</span> (C)')

            for i in range(1,len(list)):
                if orgContent.__contains__('Example (C)'):
                    html.write('Example (C)')
                elif orgContent.__contains__('Example</span> (C)'):
                    html.write('Example</span> (C)')
                html.write(list[i])
    print('==4_将翻译后的文件保存 END==')

翻译后的结果如图6所示


图6.翻译结果

7.利用.chm生成器将所有翻译后的文件打包成.chm文件
8.一些问题。有道接口一小时只能调用1000次,我的解决方案是电脑连接手机热点,当ip被有道封锁后,插拔sim卡,ip地址就不同了。整体的代码(包括调试过程中的所有有用或无用的方法)如下:



import json
import requests
import os
from bs4 import BeautifulSoup
import re
import sys



isFirst = True
htmlFiles=[]

#获取所有的html 文件
def getHtmlFiles(dir):

    global htmlFiles
    fileNames = os.listdir(dir)
    for i in range(len(fileNames)):
        if fileNames[i].__contains__(".htm"):
            htmlFiles.append(dir+"\\"+fileNames[i])
            print(dir+"\\"+fileNames[i])

    for i in range(len(fileNames)):
        if os.path.isdir(dir + "\\" + fileNames[i]):
            getHtmlFiles(dir + "\\" + fileNames[i])


#删除头文件解决中文乱码
def deleteHtmlHead(index,path):
    print('==1_删除头文件中的属性解决中文乱码Start==')
    print('****'+str(index)+'****'+str(path))

    filedata = ""
    with open(path, "r") as html:
        encoding = 'UTF-8'
        # print("hhhhhhhhhhhhhhhhhhhhhhhh")
        for line in html:
            # print(line)
            if line.__contains__('<meta http-equiv="Content-Language" content="en-us">'):
                line = ''
            if line.__contains__('<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">'):
                line = ''
            if line.__contains__('charset=windows-1252'):
                line = ''
            if line.__contains__('doctype HTML'):
                line = ''
            filedata += line

    with open(path, "w") as html:
        html.write(filedata)
    print('==1_删除头文件中的属性解决中文乱码END==')

#处理html中的文本
def handHtmlContent(index,path):
    print('========================')
    print('==2_处理HTML中的文本Start==')
    print('========================')
    print(str(index)+'___'+str(path))
    org=''
    with open(path,"r") as html:
        content = html.read()
        soup = BeautifulSoup(content, "lxml")
        org = str(soup.text)
        # org = org.replace("\t", "\n")
        # org = re.sub("\s\n", "\n", org)
        # org=re.sub("\n\s\n","",org)
        # org = re.sub("\n\s\s\n", "", org)
        # org = re.sub("\s\s\s", "", org)
        # org = re.sub("\s\s\s\s", "", org)
        # org = re.sub("\s\s\s\s\s", "", org)
        # org = re.sub("\s\s\s\s\s\s", "", org)
        # org = re.sub("\s\s\s\s\s\s\s", "", org)
        # org = re.sub("\s\s\s\s\s\s\s\s", "", org)
        # org = re.sub("\s\s\s\s\s\s\s\s\s", "", org)
        # org = re.sub("\s\s\s\s\s\s\s\s\s\s", "", org)
        #
        # while org.__contains__("\n\n"):
        #     org = org.replace("\n\n","\n")
    print('========================')
    print('==2_处理HTML中的文本 End==')
    print('========================')
    return org


#获取翻译结果
def translator(str):
    """
    input : str 需要翻译的字符串
    output:translation 翻译后的字符串
    """
    # API
    url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=null'
    # 传输的参数, i为要翻译的内容
    key = {
        'type': "AUTO",
        'i': str,
        "doctype": "json",
        "version": "2.1",
        "keyfrom": "fanyi.web",
        "ue": "UTF-8",
        "action": "FY_BY_CLICKBUTTON",
        "typoResult": "true"
    }
    # key 这个字典为发送给有道词典服务器的内容
    response = requests.post(url, data=key)
    # 判断服务器是否相应成功
    if response.status_code == 200:
        # 通过 json.loads 把返回的结果加载成 json 格式
        if response.text==None:
            print("有道词典None")
            return None
        else:
            if (response.text.__contains__('非常抱歉,来自您ip的请求异常频繁,为了保护其他用户的正常访问,只能暂时禁止您目前的访问。')):
                print("非常抱歉,来自您ip的请求异常频繁")
                return None
            else:
                result = json.loads(response.text)
        #         print ("输入的词为:%s" % result['translateResult'][0][0]['src'])
        #         print ("翻译结果为:%s" % result['translateResult'][0][0]['tgt'])
              #  translation = result['translateResult'][0][0]['tgt']
                translation = result['translateResult']
                return translation
    else:
        print("有道词典调用失败")
        # 相应失败就返回空
        return None

"""有道翻译函数  DONE!"""

#将翻译的文本结果替换到源文件
def updateHtmlContent(index,path,transResult):
    print('=========================')
    print('==4_将中文替换文本内容Start==')
    print('=========================')
    print(str(index) + '___' + str(path))

    html = open(path, "r")
    #lines = html.readlines()
    maxContent = html.read()
    updateContent = maxContent
    for i in range(len(transResult)):
        item = transResult[i][0]
        en = item['src']
        ch = item['tgt']
        if ch==None or len(en)<=0 or en.__contains__('\xa0'):
            continue
        if updateContent.__contains__(en):
            #print('==============='+ch)
            updateContent = updateContent.replace(en,ch,1)

    html.close()
    with open(path, "w") as html:
        html.write(updateContent)
    print('=========================')
    print('==4_将中文替换文本内容 END==')
    print('=========================')

#def checkOnlyNBSP(text):

def getEnContentAndTrans(index,path):
    print('==2_处理文本分割Start==')
    print('****'+str(index)+'****'+str(path))
    html = open(path,"r")
    orgContent = html.read()
    list=[]
    if orgContent.__contains__('Example (C)'):
        list = orgContent.split('Example (C)')
    elif orgContent.__contains__('Example</span> (C)'):
        list = orgContent.split('Example</span> (C)')
    else:
        list = orgContent.split('Example (C)')
    html.close()
    print('==2_处理文本分割 END==')
    print('==3_截取英文字段并翻译Start==')
    print('****'+str(index)+'****'+str(path))
    dealText = list[0]
    chTransText = dealText

    totalSize = len(dealText)

    beginPosition = 0
    findLeft = True
    leftPosition = 0
    rightPosition = 0
    enTextList=[]

    for i in range(beginPosition,totalSize):
        if dealText[i]==">" and findLeft:
            beginPosition=i
            leftPosition = i;
            findLeft = False
        if dealText[i]=="<" and not findLeft:
            beginPosition = i
            rightPosition = i
            findLeft = True

            enText = dealText[leftPosition+1:rightPosition]
            checkText = re.sub("\s", "", enText)
            #屏蔽&nbsp;
            checkNbspText = checkText
            checkNbspText = checkNbspText.replace('&nbsp;', '')
            checkNbspText = checkNbspText.replace('\n', '')
            checkNbspText = checkNbspText.replace(' ', '')
            checkNbspText = checkNbspText.replace('\t', '')
            #屏蔽大写字母和数字
            checkNum = checkNbspText
            checkNum = checkNum.replace('.','')

            isDigit = checkNum.isdigit()
            isUpcase = checkNum.isupper()

            if (len(checkText))>0 and len(checkNbspText)>0 and isDigit==False and isUpcase==False:
                transResult = translator(enText)
                # if enText.__contains__('With J1939, the Rx buffer is reserved for this CAN channel'):
                #     print('ssssssssssssssssssss')
                ch=""
                if transResult==None:
                    print("NONENONENONENONENONENONE")
                    sys.exit(0)
                else:
                    for i in range(len(transResult)):
                        for j in range(len(transResult[i])):
                            item = transResult[i][j]
                            chx = item['tgt']
                            ch+=chx
                    print(enText+'___'+ch)
                    #dealText = dealText.replace(enText,ch,1)
                    if enText.__contains__('CAN') or enText.__contains__('Can') or enText.__contains__('can'):
                        chTransText = chTransText.replace(enText, 'CAN'+ch, 1)
                    elif ch.__contains__('手动RC系列30'):
                        ch=ch.replace('手动RC系列30','RC30系列手册',1)
                        chTransText = chTransText.replace(enText, ch, 1)
                    else:
                        chTransText = chTransText.replace(enText, ch, 1)
            else:
                if len(checkText)>0:
                    print('%%%%%%'+enText)

                    #enTextList.append(enText)
    print('==3_截取英文字段并翻译 END==')
    print('==4_将翻译后的文件保存Start==')
    print('****'+str(index)+'****'+str(path))
    with open(path,"w") as html:
        chTransText=chTransText.replace('。','.')
        html.write(chTransText)

        if len(list)>1:
            # html.write('Example')
            # if orgContent.__contains__('Example (C)'):
            #     html.write('Example (C)')
            # elif orgContent.__contains__('Example</span> (C)'):
            #     html.write('Example</span> (C)')

            for i in range(1,len(list)):
                if orgContent.__contains__('Example (C)'):
                    html.write('Example (C)')
                elif orgContent.__contains__('Example</span> (C)'):
                    html.write('Example</span> (C)')
                html.write(list[i])
    print('==4_将翻译后的文件保存 END==')

def main():
    # rootDir = 'D:\用户手册\RC30_Manual'+'\\'+'3_controllers'+'\\'+'HWID00D3'+'\\'+'functions'
    rootDir = 'D:\用户手册\RC30_Manual'
    print('==0_获取所有的Html文件Start==')
    global isFirst
    if isFirst:
        getHtmlFiles(rootDir)
        isFirst=False
    print('==0_获取所有的Html文件 END===')

    # ** ** 118 ** ** D:\用户手册\RC30_Manual\5
    # _API\CAN\can_sendDatabox.htm
    '''
    for i in range(len(htmlFiles)):
        print(str(i)+'******'+htmlFiles[i])
        if (str(htmlFiles[i])).__contains__('can_sendDatabox.htm'):
            print('=============='+str(i))
    '''
    ''''''
    for i in range(207,len(htmlFiles)):
    # for i in range(175, 176):
        #print(str(i+1)+'__'+str(htmlFiles[i]))
        # if i==0:
        deleteHtmlHead(i,str(htmlFiles[i]))
        getEnContentAndTrans(i,str(htmlFiles[i]))

        '''
        content = handHtmlContent(i,htmlFiles[i])
        #print(content)
        print('================================')
        print('========3_调用有道翻译Start========')
        print('================================')

        transResult = translator(content)
        print(transResult)
        # print(transResult[0])
        # print(transResult[0][0])
        # print(transResult[1][0])
        #
        # print(len(transResult))
        print('===============================')
        print('========3_调用有道翻译 End========')
        print('===============================')
        updateHtmlContent(i,htmlFiles[i],transResult)
        '''



if __name__=='__main__':
    main()

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,616评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,020评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,078评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,040评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,154评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,265评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,298评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,072评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,491评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,795评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,970评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,654评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,272评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,985评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,815评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,852评论 2 351