文字工作者福音:四行代码实现翻译,支持50种语言,开源代码,附性能实测

最近(确切地说是昨天),有人发布了使用深度学习技术进行文本翻译的 Python 库,调用起来非常方便,基于 Facebook AI 提出的多语种翻译模型,支持 50 种语言,简直是文字工作者的福音,我立马上去查看了一下,写了篇文章,来帮助大家使用。

注意:使用它可能不需要对深度学习有所了解,但是需要了解基础的 Python 知识。

使用方式

安装

安装它非常简单,只需要执行这行代码:

pip install dl-translate

但是建议新建一个环境安装,该库基于最新版的 PyTorch,没有在别的版本上测试。为了不扰乱系统内的环境(懂的都懂),还是新建一个环境比较好。

conda create -n torch1.8 python=3.8
conda activate torch1.8
pip install dl-translate

使用

官方指南中给出的使用代码,只有四行,就能完成翻译,非常的方便:

import dl_translate as dlt

mt = dlt.TranslationModel()  # 定义模型

text_hi = "संयुक्त राष्ट्र के प्रमुख का कहना है कि सीरिया में कोई सैन्य समाधान नहीं है"
mt.translate(text_hi, source=dlt.lang.HINDI, target=dlt.lang.ENGLISH)

注意第一次使用需要下载模型,可能会比较慢,因为模型支持翻译 50 种语言,所以模型非常大, 有 2.3G 。如果需要的话,我可以帮助大家下载下来传到百度网盘。

查看模型支持的语言:

对于比较长的一段话,翻译起来可能非常慢,所以建议先将它分为句子的形式,然后再一句一句翻译,对于英文,可以使用 nltk 包进行分句,然后将各个句子的翻译结果合并起来。

import nltk

nltk.download("punkt")

text = "Mr. Smith went to his favorite cafe. There, he met his friend Dr. Doe."
sents = nltk.tokenize.sent_tokenize(text, "english")  # don't use dlt.lang.ENGLISH
" ".join(mt.translate(sents, source=dlt.lang.ENGLISH, target=dlt.lang.FRENCH))

批量翻译

在翻译过程中,我们可以利用 GPU 并行计算的优势进行翻译,调整 batch_size,当然前提是你的 GPU 能放得下这么多句子。

...
mt = dlt.TranslationModel()
mt.translate(text, source, target, batch_size=32, verbose=True)

这里的输入 text ,既可以是一个字符串列表,也可以是一个单独的字符串,都会给出对应的结果。

性能测试

因为这个模型非常大,我所用的 GPU (2080ti)放不下这么大的模型,所以以下测试基于 CPU,有条件使用 GPU 的话速度按理说会快不少。在测试中,我将这句话翻译了100遍,来统计所用时间:

Many technical approaches have been proposed for ensuring that decisions made by AI systems are fair, but few of these methods have been applied in real-world settings.

它对应的谷歌翻译的效果:

已经提出了许多技术方法来确保AI系统做出的决策是公平的,但是这些方法中很少有在现实环境中应用的。

测试所用代码:

import dl_translate as dlt
import time
from tqdm import tqdm

time_s = time.time()
mt = dlt.TranslationModel(model_options=dict(cache_dir="./"))  # Slow when you load it for the first time
time_e = time.time()
time_takes = time_e - time_s
print("Loading model takes {:.2f} seconds".format(time_e - time_s))

text_english = "Many technical approaches have been proposed for ensuring that decisions made by AI systems  are fair, but few of these methods have been applied in real-world settings."
text_chinese = mt.translate(text_english, source=dlt.lang.ENGLISH, target=dlt.lang.CHINESE)
print(text_chinese)

time_s = time.time()
texts = [text_english for i in range(100)]
for t in tqdm(texts):
    mt.translate(t, source=dlt.lang.ENGLISH, target=dlt.lang.CHINESE)
time_e = time.time()
print("It takes {:.2f} seconds to translate 100 sentences, with an average of {:.2f} seconds each.".format(t ime_e - time_s, (time_e - time_s) / 100))

测试结果:

可以看到,加载模型花费了将近一分半的时间,翻译一句有 27 个词的英文,要花费约 4 秒的时间,这个时间很大程度上依赖于句子的长度。虽然翻译的结果和谷歌翻译的比起来,不够自然,但是对于一个能够离线使用的翻译器来说已经够好了。

参考链接:


写在最后:如果觉得这篇文章对您有帮助,欢迎点赞收藏评论支持我,谢谢!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容