来源丨元宇宙简史
作者丨元宇宙简史主理人 Fun
【元宇宙导读】Meta近日宣布发布全新的语音生成AI模型——VoiceBox,VoiceBox是一个端到端的神经网络模型,它不需要任何人工特征或先验知识,就可以直接从文本生成原始的音频波形。VoiceBox还能够根据角色的外貌、性别、年龄等特征,自动调整语音的参数,使之能够为元宇宙中的NPC角色或虚拟助理生成逼真的配音。
语音生成是人工智能的一个重要领域,它可以让机器或虚拟世界里面的NPC角色用人类的声音说话。
然而,要让NPC角色生成自然而富有表现力的语音,仍然是一个挑战。传统的语音合成系统通常需要大量的人工干预和专业知识,才能调整声音的质量和风格。
此外,这些AI模型往往只能生成单一的声音,而不能根据不同的文本和情境,切换不同的说话者或情感。
近日,Meta的AI研究人员在语音生成AI方面取得了突破性的进展,发布了语音生成AI模型——VoiceBox。
VoiceBox是第一个能够在没有专门训练数据集或预先定义任务目标情况下,完成任何文本到语音任务,并且能够在给定单独语音样本情况下,以说话者原始声音朗读后面的文本内容。
和图像和文本的生成系统一样,VoiceBox能以各种各样的风格创建输出,它既可以从零开始创建输出,也可以修改给定的样本。但是,VoiceBox产生的不是图片或文本段落,而是高质量的音频。
在VoiceBox之前,语音生成AI需要针对每个任务进行特定的训练,并使用精心准备的训练数据。VoiceBox使用一种新的方法,只从原始音频和相应的转录中学习。与音频生成的自回归模型不同,VoiceBox可以修改给定样本的任何部分,而不仅仅是给定音频的末尾。
VoiceBox基于一种称为Flow Matching的方法,该方法已被证明可以改善扩散模型。VoiceBox在零射击文本到语音方面超越了当前最先进的英语模型VALL-E,无论是在可理解性还是在音频相似性方面都是如此,同时速度快达20倍。对于跨语言风格转换,VoiceBox超越了YourTTS,将平均词错误率从10.9%降低到5.2%,并将音频相似性从0.335提高到0.481。
VoiceBox在词错误率方面实现了新的最先进结果,超越了Vall-E和YourTTS
VoiceBox还分别在英语和多语言的基准测试上,在音频风格相似度指标上达到了新的最先进水平
利用Meta的AI突破性技术,VoiceBox的强大功能能够支持多种任务:
- 上下文文本到语音合成:使用短至两秒的音频样本,VoiceBox 可以匹配样本的音频风格并将其用于文本到语音的生成;
- 语音编辑和降噪:VoiceBox 可以重新创建被噪音打断的部分语音或替换说错的词,而无需重新录制整个语音,就像用于音频编辑的橡皮擦一样;
- 跨语言风格转换:VoiceBox 目前支援英语、法语、德语、西班牙语、波兰语和葡萄牙语,如给定一段文本,能够用上述支援语言阅读翻译后的文本内容。这个功能预计能帮助人们能够用自己的声音说任何外语(即使他们不会说该种外语);
- 多样化的语音采样:从不同的数据中学习后,VoiceBox 可以生成更能代表人们在现实世界中使用上述六种语言的谈话方式的语音。未来,此功能可用于语音生成合成数据,以帮助更好地训练语音助手模型。
VoiceBox还可以根据文本中的内容和情感,以及用户指定的元数据(如说话者、语言、性别、年龄等),动态地调整声音的风格和属性。这意味着VoiceBox可以生成多种不同的声音,并在同一段文本中实现无缝的声音切换。
使用VoiceBox,视障人士可以听到AI用他们的声音朗读朋友的书面信息,普通用户可以用自己的语调和语气来说外语。AI模型本身可以生成高质量的音频,消除汽车喇叭等不必要的背景噪音,同时保留音频的内容和风格。
Voicebox模型的未来应用场景,主要包括在元宇宙中为虚拟助理或NPC角色提供自然和多样的语音配音。Meta表示,VoiceBox也可以让元宇宙中的虚拟助手和NPC角色发出自然的声音,为创作者提供新的工具来轻松创建和编辑视频的音轨等。
例如,在一个冒险游戏中,VoiceBox可以为玩家遇到的各种角色生成不同的声音,如勇敢的骑士、神秘的巫师、可爱的精灵等。这些声音不仅能够反映角色的性格和情绪,还能够适应不同的场景和情境,如战斗、对话、歌唱等。VoiceBox还可以根据玩家的选择和行为动态地改变语音内容和风格,增加游戏的互动性和趣味性。
同时,Meta表示现阶段暂不计划向公众发布VoiceBox应用,以及它的开源代码,因为担心像目前AI换脸技术被滥用在诈骗上一样。
Meta意识到这项工具带来滥用和被用来犯罪的可能性,声称将为此构建一个分类器,以区分真实的音频和VoiceBox生成的语音,以减轻这些未来可能存在的风险。
严正声明:本文为元宇宙简史原创