论文标题：Fine-grained Video Dubbing Duration Alignment with Segment Supervised Preference Optimization
论文链接：https://aclanthology.org/2025.acl-long.227
论文来源：ACL 2025 (Main)
机构：阿里大文娱集团（虎鲸文娱集团）

一、背景介绍

近年来人工智能语音语言技术取得了显著的进展，借助现有的学术界研究成果，我们致力于利用AI技术并借助优酷站内丰富的数据资源来打造一个全自动的影视剧目语音语言翻译系统。具体来说，我们希望利用一些成熟的大语言模型技术和语音合成技术来将站内中文影视剧目的字幕与配音翻译为其他多语种，构造一个高效且健壮的视频配音（Video Dubbing）系统。

视频配音任务用于将电影或电视剧中的原语音从源语言翻译为目标语言，依赖于机器学习语音语言处理技术。通常，视频配音系统并非一个端到端的系统，而是包含多个集联任务，即自动语音识别（Automatic Speech Recognition, ASR）、神经机器翻译（Neural Machine Translation, NMT）以及文本转语音（Text-to-Speech, TTS)。ASR将原有的语音转换为文本。当字幕可用或者可以通过光学字符识别（Optical Character Recognition, OCR）技术获取时，则可以省略ASR任务。NMT用于将源语言的文本翻译为目标语言的文本，然后TTS将译文合成为目标语言的语音。

在视频配音系统中，保持原始的源语音与合成的目标语音在语音时延（Duration）方面能够满足严格的等时性约束以确保能够匹配字幕标记的时长，这对于保持观众的沉浸式体验是至关重要的。然而由于不同语言的信息密度不同，从一种语言翻译为另一种时，通常会导致源语音与目标语音的时延不匹配。举例来说，对于中文这种高信息密度的语言，将其翻译为英语、泰语等信息密度不高的语言时，其译文往往会超出原始字幕的时间范围，这会严重影响观众的观感体验。如果仅仅依靠TTS来调整单词的停顿和时延，那么由于不同语言之间差异巨大的信息密度，TTS必须在一个广阔的范围内调整每个词的语速以匹配整体的语音时延，这将会严重影响合成语音的流畅性和自然度，也就是会带来相邻台词间语速不一致的违和感。因此，时延对齐（Duration Alignment）是NMT阶段必须要面临的重要挑战。

近来，大语言模型（Large language Model, LLM）被广泛应用于NMT中，为翻译任务带来了显著的性能提升。LLM也同样被应用于视频配音系统中的NMT，然而仅仅依靠提示工程（Prompt Engineering, PE）与人工精翻字幕上的监督微调（Supervised Fine-tuning, SFT）并不能很好地处理时延对齐任务。这主要是因为LLM对文本的语音时延并没有直接的感知，并且用于SFT的可用人工精翻字幕通常仅注重文本而不关注台词的语音时延。对于时延对齐而言，虽然生成短几个或长几个单词的译文看起来是一项简单的任务，但它实际上意味着对目标语言的良好控制。LLM必须隐式地采用选择更短地措辞、使用不同的动词时态、避免冗余的副词和形容词等策略，同时也需要保持译文的准确性与流畅性，以确保时延对齐后翻译质量不会下降。

以往的研究中已有一些关于生成文本长度控制的方法，其中大致包括以下几类：1)修改模型底层嵌入注入长度信息；2)利用长度预测度量或模型来干涉训练过程；3)使用融合长度信息的奖励函数或模型来指导解码过程。然而这些方法主要面向传统的序列到序列（sequence to sequence）模型，不适用于LLM。这主要是因为LLM是经过大规模预训练的高度优化的模型，修改其底层嵌入或者引入额外信息干涉其训练过程将导致模型整体性能的剧烈下降。另外，这些方法的主要目的是为了让模型生成更短的文本。而时延对齐则是为了生成原文与译文时延一致的文本。另外，字幕文本具有其特殊性，字幕中的台词都是短文本，且与其上下文具有强相关的密切联系，模型在翻译每句台词时需要提供其上下文台词。因此时延对齐对翻译文本生成提出了更高的要求。总结来说，不同于长度控制任务生成整体更短的文本的目标，时延对齐的目标是对于LLM的响应中的多句台词，细粒度地生成每句台词（而非整个响应）的时延一致（而非最短）的译文。以下表为例，我们期望模型能够在保证翻译质量的前提下尽可能地生成时延一致的译文，即将“人没有牺牲便一无所获”这句中文台词翻译为“Without sacrifice, one gains nothing.”而非其他时延低于或超出原文的译文。

Example

针对视频配音系统的NMT子任务中的时延对齐问题，我们提出了细粒度时延控制优化（Fine-grained Duration Control Optimization, SSPO）方法。SSPO具有以下特性：1)同时翻译多句台词，保证翻译每句台词时模型能够接触到其充足的上下文；2)不改动LLMs的底层嵌入，也不干涉其解码过程；3)不引入新的模型或参数，最终只需要部署LLMs的参数。SSPO将时延对齐任务看作一个偏好优化问题，基于直接偏好优化（Direct Preference Optimization, DPO）技术与细粒度采样策略来精准地控制每句台词译文的时延，并利用LoRA训练和token级的KL散度来约束LLMs的输出格式。实验结果表明，SSPO能够在保证翻译准确性与流畅性的前提下，有效地实现LLMs翻译的每句台词的原文与译文的时延对齐。下图演示了SSPO方法的形象化流程：

Process

二、预备介绍

本节我们将说明SSPO方法的一些符号、使用的数据语料以及时延一致性的度量。

符号

视频配音的时延对齐实际上是一种可控文本生成（Controllable Text Generation, CTG）任务，其要求LLM的输出能够：1)严格符合相应的格式，以便于能够将每句台词的译文与原文能够对应；2)对每句台词的译文的时延满足与原文尽可能地保持一致。具体的，我们将利用人工翻译字幕数据对开源的语言模型进行SFT，然后对SFT模型进行时延对齐。在SFT时，LLM的输入提示包括指令、术语翻译对照表以及需要翻译的一组多句源台词。LLM的响应包括每句台词的原文与译文，之所以需要输出原文，是为了避免由于模型漏译或者合并台词造成台词原文译文对应错误，尽管这会产生更多的输出token，但这对于保证翻译的准确性与对应性是十分重要的。时延对齐后的LLM在输出格式上需要与SFT模型保持一致，且需要保持原文与译文的时延一致性。

数据集

我们使用优酷站内的42部影视剧目（2021-2024）的多语言字幕语料（Polylingual Subtitle Corpus，记作PolySC）来进行实验，其中包含每部剧的中文原文与人工翻译的英文、泰语译文字幕数据，用于Zh $\Rightarrow$ En与Zh $\Rightarrow$ Th的字幕翻译。中文是高信息密度的语言，泰语是中等信息密度的语言，英文是低信息密度的语言。我们将PolySC处理成Zh $\Rightarrow$ En的PolySC-En数据集与Zh $\Rightarrow$ Th的PolySC-Th数据集，各包含约26,000个提示与响应对，用于LLM的训练。接着我们分别将PolySC-En与PolySC-Th的97%的数据作为SFT的演示数据集，分别记作PolySC-En-Demo与PolySC-Th-Demo，其中包含提示与响应。另外的3%数据作为时延对齐的查询数据集，分别记作PolySC-En-Query与PolySC-Th-Query，舍弃响应仅保留提示。数据集统计情况如下：

Dataset

时延一致性度量

在我们的实验中，我们采用Microsoft Edge的在线TTS服务edge-tts来获取台词的时延，该服务可以被替换为任意TTS组件。我们使用edge-tts来分别合成每句台词的原文与译文的语音，然后获取其时延。接着使用以下度量来衡量的时延一致性：

$\mathcal{P}(s_i,t_i)=\text{exp}(\max(0,\text{Dur}(t_i)-\text{Dur}(s_i)))\\ +\max(0,\text{Dur}(s_i)-\text{Dur}(t_i))-1.$

这里 $\mathcal{P}(s_i,t_i)$ 代表 $\text{Dur}(s_{i})$ 与 $\text{Dur}(t_{i})$ 不一致时所施加的惩罚，当 $\text{Dur}(t_{i})\gt \text{Dur}(s_{i})$ 时， $\mathcal{P}(s_i,t_i)$ 为指数项，当 $\text{Dur}(t_{i})\lt \text{Dur}(s_{i})$ 时， $\mathcal{P}(s_i,t_i)$ 为一次项。这样设计是因为对于视频配音来说，译文时延更长比更短是更不能接受的，因为这将会导致译文字幕超出原始字幕的时间范围。 $\mathcal{P}(s_i,t_i)$ 越大则原文与译文的时延一致性越高，反之越低。

三、细粒度时延控制优化方法

本节我们将介绍SSPO的整体流程。

整体框架

尽管我们已经定义了一个量化的时延一致性度量 $\mathcal{P}(s_i,t_i)$ ，我们仍然无法设计一个可微的损失函数来直接优化SFT模型来实现时延对齐。这主要是因为自回归LLM并不直接生成文本，而仅仅是预测token生成的概率。因此利用 $\mathcal{P}(s_i,t_i)$ 这样的度量来直接梯度下降优化LLM是不可行的。据此，我们将时延对齐作为一个偏好优化问题。在偏好优化的框架下，我们就可以利用 $\mathcal{P}(s_i,t_i)$ 这个度量来指导LLM生成的概率，从而沿着时延一致的方向优化LLM的参数。

然而，我们并不能直接应用偏好对齐的算法（例如DPO或者RLHF等），这主要是因为对每一句台词的翻译需要依赖于其上下文，SFT模型的输入中需要包含多句台词，因而需要对SFT模型的响应中的每句台词进行细粒度的时延一致性对齐。另外，对于SFT模型的进一步训练不能改变模型的输出格式，否则会带来模型翻译遗漏等问题，从而造成与原始字幕的时间不同步的问题。

我们在下图中展示了SSPO算法的整体框架。在进行时延对齐时，SSPO利用细粒度的逐句采样策略来从SFT模型中采样每一句台词的多个翻译结果，并根据时延一致性度量 $\mathcal{P}(s_i,t_i)$ 来选取每句台词的偏好译文与不偏好译文。然后利用逐句的DPO损失函数来优化SFT模型。另外为了保证时延对齐后的模型不会偏离SFT模型太远，以及保证模型输出格式的一致性，我们采用LoRA训练和token级的KL散度惩罚项来约束训练过程的参数更新。

SSPO

采样策略

我们首先利用演示数据集通过SFT获得一个基础的SFT模型。对于用于时延对齐的查询数据集的一个样本，其中包含 $n$ 句台词。对于每句台词，以其prompt和已采样完成的偏好译文为前提采样多个个翻译结果。然后对采样的多个结果去重后按照时延一致性度量 $\mathcal{P}(s_i,t_i)$ 来筛选偏好的译文与不偏好的译文。具体来说，以 $\mathcal{P}(s_i,t_i)$ 最小的采样作为偏好译文，最大的作为不偏好译文。举例如下：

Example

我们的数据采样策略建立在台词翻译的生成多样性基础之上，具体来说，LLM通常对于大多数台词有不同的翻译，不同的具备不同的时延。而对于一些较简单的台词，其翻译多样性较低，这样的台词不应该用于模型的优化。另外，如果不同的译文的时延的差异不明显，其对模型的优化也是没有意义的。整个采样流程如以下算法所示：

Sampling

对齐损失优化

时延对齐任务不同于语言模型的偏好对齐任务，其需要对LLM的响应中的多个片段进行细粒度的逐个对齐，而非偏好对齐那样仅需要对齐整个响应进行对齐。另外，由于台词翻译的上下文依赖性，时延对齐需要保证LLM输出格式保持不变，以防止干扰原文与译文的对应关系。SSPO利用DPO损失及采样获取的数据来细粒度地对齐每句台词的时延。SSPO同样需要调度策略模型和参考模型两个模型，均由SFT模型初始化而来。具体的，对于采样的DPO数据集的一个样本，我们利用标准DPO损失来在一句台词的偏好对数据上计算一句台词上的DPO损失项：

$\mathcal{L}_{\text{dpo}}(s_{i})=\text{log}\, \sigma \left (\beta \, \text{log}\frac{\pi _{\theta }(t_{i}^{(c)}|p_{i})}{\pi _{\text{ref}}(t_{i}^{(c)}|p_{i})}-\beta \, \text{log}\frac{\pi _{\theta }(t_{i}^{(r)}|p_{i})}{\pi _{\text{ref}}(t_{i}^{(r)}|p_{i})}\right ),$

该损失函数仅控制单句译文的时延，而不会对其他台词产生影响，由此实现了对每句台词的独立定制化时延对齐。现在我们可以得到时延对齐的损失函数如下：

$\mathcal{L}_{\text{da}}(\pi _{\theta };\pi _{\text{ref}})=-\mathbb{E}_{(x,\mathcal{S}(x))\sim \mathcal{D}_{\text{dpo}}}\left (\sum_{i=1}^{n}\cdot \mathcal{L}_{\text{dpo}}(s_{i})\right ).$

四、结果展示

本节我们将展示利用SSPO算法进行的相关实验成果，具体的可视化效果以及对模型翻译质量的评估结果。

时延对齐

我们在下表中展示了对SSPO的主要评估实验，报告了S>T Rate、S>T Dur、T>S Rate、T>S Dur、Consistency Rate(CR)、 $\mathcal{P}$ 这六项指标，分别代表原文时延超过译文时延0.1s的台词数量占比与平均超出时延(s)，译文时延超出原文时延0.1s的台词数量占比与平均超出时延(s)，原文与译文时延差异在0.1s以内的台词数量占比，以及时延一致性度量ic $\mathcal{P}$ 的平均值。另外，我们也与测试集的人工翻译译文（Gold Reference）及DA的极限表现（Alignment Bound）进行了对比。需要注意的是，DA的目标是使译文台词的时延与原文的时延尽可能的一致，即降低 $\mathcal{P}$ ，然而使其完全一致（此时 $\mathcal{P}=0$ ）是不可能的。这是因为在保持翻译质量的前提下，每句台词的duration最一致的译文通常与原文的 $\mathcal{P}$ 也不会是0。因此DA是有其上限的，称为Alignment Bound，其是不可知的。不过我们可以使用计算我们通过利用采样得到的数据中所有偏好译文与其原台词的平均 $\mathcal{P}$ 来估计这个Alignment Bound。

Main Experiments

上表中的实验结果显示，SFT模型经过SSPO训练之后，其时延一致性度量 $\mathcal{P}$ 明显下降，台词时延一致比例明显提高，相比其他baseline方法效果更加显著。SSPO在不同的base模型上都产生了一致的对齐效果，这验证了SSPO的作用是普遍的。GPT-3.5, GPT-4和Claude 3.5这些利用prompt设计来控制译文时延的模型相比gold reference baseline也产生了一定效果，不过也达不到AutoDubbing、VideoDubber这些传统方法的性能。这表明LLMs本身对文本时延的感知是欠缺的，需要进一步引入额外时延信息来辅助完成DA任务。对于LLMs来说，在不改动其底层embedding和模型架构且不引入额外模型参数的前提下，无法设计一种可微的损失函数来引入额外duration信息以直接优化LLMs，因此SSPO将其视作偏好问题，利用细粒度的采样和训练实现了时延对齐。

可视化与案例

我们在下图中展示了Qwen2.5-14B-Instruct的SFT和SSPO模型的译文时延与原文时延差值的频率分布情况，以观察经过SSPO对齐后的译文时延变化情况。可以看到经过SSPO训练后原文和译文的时延差异明显缩小，这体现在下图中SSPO的柱状图相比SFT明显更加集中在0附近。

Visualization

另外，我们在下表中也展示了Qwen2.5-14B-Instruct的SFT和SSPO模型对某些台词的译文的对比案例研究，可以直观地看到经过SSPO对齐后的译文与SFT模型生成的译文相比时延与原文更加地一致。

Case Study

翻译质量评估

我们在包含约4,200句台词的测试数据上进行了人工翻译质量的评估，评估结果展示在下图中。评估人员将从翻译准确性、自然度以及生动性三个维度整体评估SFT和SSPO模型的翻译质量。具体的，我们以25句台词为一组，让评估人员对每组台词的SFT和SSPO译文标注SFT译文更优、SSPO译文更优还是差不多，从而得到反映相对质量的胜率指标。评估结果表明，从中文翻译到英文、泰语的模型经过SSPO对齐后，翻译质量会出现轻微的下降，不过下降的幅度是完全可接受的。由于从高信息密度的中文翻译为低信息密度的英语、泰语时，大多数台词的译文时延要高于原台词，因此SSPO通常会降低生成的译文长度，这不可避免地带来一定的信息丢失，这是翻译质量出现小幅下降的主要原因。

Quality

五、结论

本文我们关注视频配音系统中的时延对齐问题，我们其视为一个偏好优化问题，为此我们提出了细粒度时延控制优化（Fine-grained Duration Control Optimization, SSPO）方法。SSPO利用一个逐句采样策略和细粒度偏好对齐损失来缓解源台词与目标台词的时延不一致。实验结果显示SSPO能够在保证翻译质量的前提下，相比基线方法在提高源语音和目标语音的时延一致性方面取得了明显提升。SSPO方法对于缓解我们优酷视频配音系统中面临的音画不同步问题起到了显著的作用。

ACL 2025 - 基于片段监督偏好优化的字幕翻译时延对齐