视频配音是用新的音轨替换原始音频的过程,通常用于翻译目的。机器学习已经开始构建用于自动配音的多模态系统。
视频配音不仅仅是对原始内容的翻译文本产品。作为翻译,它应该保留原文的含义; 作为口语,它应该听起来自然;作为视频音轨的伴奏,它应该与演员的口部动作、 肢体语言和故事情节的节奏相吻合。同时满足所有这些约束条件非常困难, 一般来说可能是不可能的。因此,我们感兴趣的是如何平衡语义保真度、 自然语音、时间限制和令人信服的口型同步等相互竞争的利益。每个因素都可以相互权衡, 对观众对最终产品的体验产生不同的影响。
视频配音应关注的问题
已经有了很多AI的技术用于实现自动配音,仍应关注以下问题.
- 等时性配音最明显的限制可能是等时性:配音语音应与原语音保持一致。当角色的可见时,此限制尤其具有约束力,但即使不可见, 也可能出于其他原因适用:例如视频中的剪切或过渡、屏幕上的语音以及与演员的身体动作保持一致的需要。 许多定性研究都考虑了等时约束,而自动配音研究则探索了如何整合这些约束。
- 等距过去的研究研究了文本长度相似性(以字符为单位)作为约束自动配音翻译的一种方式,尤其是要求目标翻译在源字符长度的 ±10% 以内。 这种做法称为“等距机器翻译”,我们将长度约束称为“等距”。这些主要将等距用作持续时间相似性和等时性, 尽管它也可能有助于避免 TTS 输出率的大幅变化。
- 语速一个常见的(尽管并非普遍的)看法是,配音应听起来“不自然且做作”,原因包括奇怪的语调和受源语言启发的特化。 从另一个角度来看,等距机器翻译文献认为,TTS 模型在改变语速方面 不如人类灵活,可能需要等距输入才能产生听起来自然的等时输出。 也许有悖常理,但看起来持续时间比与内容的相对长度的关系比与配音语速的关系更为密切。 而人类配音者似乎更愿意打破时间限制而不是改变语速。
- 唇形同步定性工作分别考虑了人工配音和自动配音中的“唇形同步”约束。 这个想法是,配音音频应该与原始演员的(可见)嘴部动作相匹配。 做不到这一点可能会让观众感到不舒服并降低配音质量。 然而,最近的一些实证研究发现,这种约束可能不像以前假设的那样具有约束力。
- 翻译质量翻译过程可能需要修改文本以满足同步、口型同步和其他限制, 因此,一个显而易见的问题是最终翻译对源材料的忠实程度, 降低翻译质量毕竟可能会使满足其他约束变得更容易。
- 风格迁移人类配音者在非常精细(和语义)的层面上模仿源音频的属性。 这些结果可以解释为情感和/或重点从源转移到目标的证据。已经有AI技术可以实现合成声音风格的迁移, 可能带来比人类配音者产生更丰富的相似性。