BasicCAT推介

BasicCAT是一款开源跨平台的计算机辅助翻译软件,无论是架构还是界面都大量借鉴了雪人,可以说继承了雪人的主要优点。

1.轻量级,界面简洁
2.支持多种格式的原文导入和译文对比导出
(多数格式会被认为是有标签的文本,需要预处理为xliff文件)
3.支持Tab分割的.txt文件作为记忆库和术语库导入
4.人性化的在线词典嵌入和机翻API结果对比

其开发者是pku软微学院在读,本科英专的Xu Lihang许同学。
他的博客:http://blog.xulihang.me/
内有开发BasicCAT的心得,包括对该项目功能设计的思考反思,
同时有纯技术方面的经验总结。

下载链接
http://www.basiccat.org/zh/download/
中文使用手册:
https://docs.basiccat.org/zh_CN/latest/


特色功能:调用Stanford CoreNLP实现译文自动补全

Stanford CoreNLP官网:
https://stanfordnlp.github.io/CoreNLP/index.html
备用下载链接:https://pan.baidu.com/s/1LNW4IDw8Viz6RURmzqxI9Q#list/path=%2F

链接中包含corenlp和中文模型。

基本原理:

利用coreNLP将多个机翻接口的结果打碎成短语,并匹配相应的原文中的短语。

目的是将双语平行句对转化成双语平行短语对,即短语对齐。这样往往不能整句原样采用的机翻结果在短语层面上仍有借鉴意义。尤其是多个API的翻译结果可以为人类译者提供多种选项,实现互补。

当译员输入一两个匹配的字符时,系统会自动推荐刚才切割好的机翻短语片段,可能不止一个。译员只需从中挑选出合适的。

思考:为什么不从记忆库中搜索对应的短语级模板?

我想答案至少有三:

1.语境的信息越多,短语在context中的意思越固定。
反之,短语,尤其是两三个词的短语,其意义往往在不同语境下有异。
那么我们从记忆库中抽取的对应意思就可能不可用。
(而且代价巨大,词/短语对齐的效率要比单纯的搜索低很多!)
若短语确实意思有变化,耗费的时间会是徒劳。

2.短语级的翻译模板应该预先被建立,而不能从句级记忆库中现用现抽取。
短语对齐效率极低,且每次原文中出现该短语都要重新从记忆库中搜索,匹配,再检验是否几乎意思唯一。
(检验:比如95%以上的情况下该短语有相同的汉语对应)

最终目的是建立一个拥有固定翻译的常用短语模板语料库。

它扮演的角色介于术语库和记忆库之间--词以上句以下。
术语库之所以好用,是因为专业术语的翻译和语境无关,其本身也无屈折变化;
记忆库好用在于语境充分,一句话因为结合上下句而改变意思是相对罕见的,但对词和短语却屡见不鲜。
因此在翻译时我们几乎可以原封不动地使用匹配的句子或术语,如若需要修改,就有些鸡肋。

3.从效率上讲,处理不同机翻API的几条结果比从整个记忆库中搜索快的多。
句子机翻打碎成短语对齐的另一个好处是机翻结果本身包含了语境信息,虽然样本小,只对比几个API,但大方向是正确的,也更高效。况且对于意思不固定的短语,机器在考虑语境后也许可以确定此处的翻译。

但尴尬之处在于,即便全句完美翻译,仍需要人力校对。完美匹配的记忆库是不怎么需要怀疑准确性的。对一句不太难的话来讲,校对订正的功夫已经独立译完了。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,809评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,189评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,290评论 0 359
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,399评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,425评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,116评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,710评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,629评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,155评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,261评论 3 339
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,399评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,068评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,758评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,252评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,381评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,747评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,402评论 2 358

推荐阅读更多精彩内容

  • References: 《speech and language processing 》2nd & 3rd 《统...
    艺术叔阅读 7,542评论 1 8
  • 关于IT的英语 win10 系统 win + x apps and features 应用和功能 feature:...
    我要写小说阅读 3,877评论 0 1
  • “咕噜噜~”,听着肚子里发出的粗俗的声音,我不禁一阵脸红,好在吃饭的只有自己,一个人吃饭就有这个点好处。 我是一个...
    森书阅读 754评论 5 2
  • 小虫外公阅读 275评论 0 0
  • 妈妈,我长大了成为建筑师,一定要把现有的隧道加上音响功能。 小张老师的创意不错啊!
    巴黎的春天_5628阅读 137评论 0 0