产业

谷歌DeepMind新研究:利用AI模型为无声视频配音,创建虚拟动物模型

自Sora发布以来,国内外各大科技公司和研究机构都在竞相推出“文生视频”大模型,比如生数科技的 Vidu、快手的可灵和 Runway 昨天才发布的 Gen-3 Alpha 等。

自Sora发布以来,国内外各大科技公司和研究机构都在竞相推出“文生视频”大模型,比如生数科技的 Vidu、快手的可灵和 Runway 昨天才发布的 Gen-3 Alpha 等。

但目前许多系统只能生成无声输出,为解决这个问题,谷歌DeepMind于6月18日公布了一项利用AI为无声视频生成背景音乐的“video-to-audio”技术。

据介绍,V2A 将视频像素与自然语言文本提示相结合,为屏幕上的动作生成丰富的音效。这一技术可与视频生成模型搭配使用,从而创建具有逼真音效或对话的镜头,与视频中的角色和基调相匹配。

不过,研究团队表示,他们还在努力解决其他一些限制因素,进一步的研究正在进行中。如需要开发者使用提示词为模型预先“介绍”视频可能的声音,暂时不能直接根据视频画面添加具体音效。由于音频输出的质量取决于视频输入的质量,因此视频中超出模型训练分布范围的伪影或失真会导致音频质量明显下降。

此外,前两天,美国哈佛大学与谷歌DeepMind的科学家合作,利用人工智能技术为虚拟老鼠创建了一个人工大脑,能在复杂环境中精确控制其运动。

据悉,研究团队利用真实老鼠数据,建立了生物力学逼真的3D老鼠模型。DeepMind的深度强化学习算法为该模型训练了一个人工神经网络(ANN)大脑,使其能通过逆动力学模型精准产生各种复杂运动轨迹和力量。

这个虚拟大脑不仅能模仿已训练过的动作,更能自主产生从未接受训练的新行为,其模拟效果堪称"超越真实"。

24快报
JSON抓取失败