指令调整的大型语言模型在医学翻译中的表现优于基准水平
在2024年8月29日的一篇论文中,维也纳大学的米格尔·里奥斯(Miguel Rios)探讨了指令调整的大型语言模型(LLM)如何改进专业领域,尤其是医学领域的机器翻译(MT)。
里奥斯指出,尽管最先进的LLM在资源丰富的语言对和领域中表现良好,但在专门且资源匮乏的领域,它们的准确性和一致性往往难以保证。他表示:“在专门领域(如医学),LLM的表现低于标准的神经机器翻译模型。”
他进一步解释,LLM在低资源领域的局限性主要源于其训练数据,可能无法充分涵盖有效翻译所需的特定术语和语境细微差别。为了解决这一挑战,里奥斯建议通过指令调整来整合专业术语,以提高LLM的性能。指令调整是一种通过格式化为指令的各种任务数据集对模型进行微调的技术。里奥斯表示:“我们的目标是将术语、语法信息和文档结构约束整合到医学领域的LLM中。”
具体来说,里奥斯建议将医学术语作为LLM的指导内容之一。在翻译某个片段时,模型会提供应使用的相关医学术语。此外,该方法还涉及识别与正在翻译的文本相关的术语对(源术语和相应的目标术语),确保在翻译过程中将正确的医学术语应用于这些片段。如果在某个片段中找到一个或多个候选术语匹配,它们将被纳入提供给LLM的指令模板中。这意味着模型收到的提示不仅指示其翻译文本,还指定要使用哪些医学术语。如果没有找到匹配的候选术语,则会向模型提供基本的翻译任务提示,指示其在没有任何特定医学术语指导的情况下进行翻译。
Unbabel-Tower取得领先
在实验中,里奥斯使用谷歌的FLAN-T5、Meta的LLaMA-3-8B和Unbabel的Tower-7B作为基线模型,应用QLoRA进行参数高效的微调,并在英语-西班牙语、英语-德语和英语-罗马尼亚语语言对中进行了测试。结果显示,指令调整模型在BLEU、chrF和COMET分数等自动指标方面“显著”优于基准水平。具体而言,Tower-7B模型在英语-西班牙语和英语-德语翻译中表现最佳,其次是LLaMA-3-8B,在英语-罗马尼亚语翻译中表现突出。
里奥斯表示,他计划在未来与专业翻译人员进行人工评估,因为单靠自动化指标可能无法全面反映模型在翻译中生成正确医学术语的效果。