在接到翻译任务的时候,我们的初始状态是拥有待翻译的单语文本。一般来说只有这个。所以第一步其实是,如何制作单语术语列表。
1.利用术语提取pipeline进行机器术语提取
当然,如果预算无上限,我们可以人工通篇去划词,这样正确率最高,召回率又全。但是如果客户预算上天,他就直接找人翻就好了,也不会选择机翻或者机翻加译后编辑这样的翻译解决方案。网文小说之类的动辄上千章,人工翻译,哪怕此领域人工每千字价再低,行业内也不会有人为目前出海盈利状况一片混沌的市场掏这么大的腰包。
pipeline中会包含三个层级的术语提取(标注)模块:
世界知识术语a+b:
a.词库标注
这个词库可以是之前公司对于此垂直领域的术语积累、专业词典、专业术语库、标注信息、人工录入。将文本与词库进行匹配,匹配到的词片段标注出来。此处解释一下标注与提取的不同,标注是指有参考的词表,将且只将词表中的词匹配出来。提取则是无参考词表的情况下,运用其他方式对文本中的片段进行判断。
词库标注的优点在于标注出词汇的准确率高、词汇片段定位精确。其实某种程度上来说,词库标注之后的举动都是为了提高词库不能覆盖到的术语部分(召回率),同时降低由此带来的错误提取词汇数量(保证准确率)。
但是小说这一题材会相对来说比较不同,一是它不够“专业”,那么没有人会为它编撰专业术语库,也无法编撰,因为对于每部小说来说,它都有自己的术语范围。可以理解为,每部小说就是一个垂直领域。二是,传统文化用词比较高(主要指仙侠小说)比如习语、成语、诗词等。由这两个特点,指明了对于小说题材的文本进行术语替换会分为两批,第一是小说通用术语替换,第二是特定小说的术语替换。
那么重点来了,小说类型通用的参考词库从哪里找呢?首先要进行分类,小说相关术语分为人名、武器名称、功法名称、门派组织名称、诗词俗语、官职称呼、服装妆发、坐骑猛兽等。其中的寻找规则又分为两种,一是已出版的知名作品可以在网络上找到现有的资源,百度文库、搜狗输入法的独有格式词库里也经常有宝藏发现,不过需要格式转码;另一个是为小说的写作者构造的资源库,在各种论坛中会发现广阔的世界,为方便小说的作者不为这些东西费脑,动辄15个字长的繁复服饰描述式名称、武器名称等等一抓一大把。(好累,挖坑待填)
b.构词规则
语境术语:c+d
c.传统序列标注模型
HMM、CRF+维特比解码
d.神经网络模型
BERT-GRU