谷歌DeepMind的新AI技术将为视频生成配乐

谷歌的 DeepMind 人工智能实验室正在研究一种新技术，可以生成与视频相配的配乐，甚至对话。该实验室分享了其在视频转音频 (V2A) 技术项目上的进展，该项目可以与Google Veo和其他视频创作工具(如OpenAI 的 Sora)配合使用。DeepMind 团队在其博客文章中解释说，该系统可以理解原始像素，并将这些信息与文本提示相结合，为屏幕上发生的事情创建音效。值得注意的是，该工具还可用于为传统镜头制作配乐，例如无声电影和任何其他没有声音的视频。

DeepMind 的研究人员在视频、音频和 AI 生成的注释上训练了这项技术，这些注释包含声音和对话记录的详细描述。他们说，通过这样做，该技术学会了将特定的声音与视觉场景联系起来。正如TechCrunch指出的那样，DeepMind 的团队并不是第一个发布可以生成音效的 AI 工具的团队——ElevenLabs最近也发布了一款——而且这也不会是最后一个。“我们的研究与现有的视频转音频解决方案相比脱颖而出，因为它可以理解原始像素，并且可以选择添加文本提示，”该团队写道。

虽然文本提示是可选的，但它可用于塑造和完善最终产品，使其尽可能准确和逼真。例如，您可以输入积极的提示来引导输出产生您想要的声音，或者输入消极的提示来使其远离您不想要的声音。在下面的示例中，团队使用了以下提示：“电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声。

研究人员承认，他们仍在努力解决 V2A 技术现有的局限性，比如如果源视频出现失真，输出的音频质量可能会下降。他们还在努力改进生成对话的唇形同步。此外，他们承诺在向全世界发布这项技术之前，要对其进行“严格的安全评估和测试”。

猜你喜欢

最新文章