您的位置首页 >互联网 >

谷歌DeepMind的新AI技术将为视频生成配乐

导读 谷歌的 DeepMind 人工智能实验室正在研究一种新技术,可以生成与视频相配的配乐,甚至对话。该实验室分享了其在视频转音频 (V2A) 技术...

谷歌的 DeepMind 人工智能实验室正在研究一种新技术,可以生成与视频相配的配乐,甚至对话。该实验室分享了其在视频转音频 (V2A) 技术项目上的进展,该项目可以与Google Veo和其他视频创作工具(如OpenAI 的 Sora)配合使用。DeepMind 团队在其博客文章中解释说,该系统可以理解原始像素,并将这些信息与文本提示相结合,为屏幕上发生的事情创建音效。值得注意的是,该工具还可用于为传统镜头制作配乐,例如无声电影和任何其他没有声音的视频。

DeepMind 的研究人员在视频、音频和 AI 生成的注释上训练了这项技术,这些注释包含声音和对话记录的详细描述。他们说,通过这样做,该技术学会了将特定的声音与视觉场景联系起来。正如TechCrunch指出的那样,DeepMind 的团队并不是第一个发布可以生成音效的 AI 工具的团队——ElevenLabs最近也发布了一款——而且这也不会是最后一个。“我们的研究与现有的视频转音频解决方案相比脱颖而出,因为它可以理解原始像素,并且可以选择添加文本提示,”该团队写道。

虽然文本提示是可选的,但它可用于塑造和完善最终产品,使其尽可能准确和逼真。例如,您可以输入积极的提示来引导输出产生您想要的声音,或者输入消极的提示来使其远离您不想要的声音。在下面的示例中,团队使用了以下提示:“电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声。

研究人员承认,他们仍在努力解决 V2A 技术现有的局限性,比如如果源视频出现失真,输出的音频质量可能会下降。他们还在努力改进生成对话的唇形同步。此外,他们承诺在向全世界发布这项技术之前,要对其进行“严格的安全评估和测试”。

版权声明:本文由用户上传,如有侵权请联系删除!