为元宇宙NPC角色配音，Meta发布全新语音生成AI模型_产业_产业

产业

为元宇宙NPC角色配音，Meta发布全新语音生成AI模型

来源：澎湃新闻
2023-06-20 08:55

Meta近日宣布发布全新的语音生成AI模型——VoiceBox，VoiceBox是一个端到端的神经网络模型，它不需要任何人工特征或先验知识，就可以直接从文本生成原始的音频波形。

来源丨元宇宙简史

作者丨元宇宙简史主理人 Fun

【元宇宙导读】Meta近日宣布发布全新的语音生成AI模型——VoiceBox，VoiceBox是一个端到端的神经网络模型，它不需要任何人工特征或先验知识，就可以直接从文本生成原始的音频波形。VoiceBox还能够根据角色的外貌、性别、年龄等特征，自动调整语音的参数，使之能够为元宇宙中的NPC角色或虚拟助理生成逼真的配音。

语音生成是人工智能的一个重要领域，它可以让机器或虚拟世界里面的NPC角色用人类的声音说话。

然而，要让NPC角色生成自然而富有表现力的语音，仍然是一个挑战。传统的语音合成系统通常需要大量的人工干预和专业知识，才能调整声音的质量和风格。

此外，这些AI模型往往只能生成单一的声音，而不能根据不同的文本和情境，切换不同的说话者或情感。

近日，Meta的AI研究人员在语音生成AI方面取得了突破性的进展，发布了语音生成AI模型——VoiceBox。

VoiceBox是第一个能够在没有专门训练数据集或预先定义任务目标情况下，完成任何文本到语音任务，并且能够在给定单独语音样本情况下，以说话者原始声音朗读后面的文本内容。

和图像和文本的生成系统一样，VoiceBox能以各种各样的风格创建输出，它既可以从零开始创建输出，也可以修改给定的样本。但是，VoiceBox产生的不是图片或文本段落，而是高质量的音频。

在VoiceBox之前，语音生成AI需要针对每个任务进行特定的训练，并使用精心准备的训练数据。VoiceBox使用一种新的方法，只从原始音频和相应的转录中学习。与音频生成的自回归模型不同，VoiceBox可以修改给定样本的任何部分，而不仅仅是给定音频的末尾。

VoiceBox基于一种称为Flow Matching的方法，该方法已被证明可以改善扩散模型。VoiceBox在零射击文本到语音方面超越了当前最先进的英语模型VALL-E，无论是在可理解性还是在音频相似性方面都是如此，同时速度快达20倍。对于跨语言风格转换，VoiceBox超越了YourTTS，将平均词错误率从10.9%降低到5.2%，并将音频相似性从0.335提高到0.481。

VoiceBox在词错误率方面实现了新的最先进结果，超越了Vall-E和YourTTS

VoiceBox还分别在英语和多语言的基准测试上，在音频风格相似度指标上达到了新的最先进水平

利用Meta的AI突破性技术，VoiceBox的强大功能能够支持多种任务：

- 上下文文本到语音合成：使用短至两秒的音频样本，VoiceBox 可以匹配样本的音频风格并将其用于文本到语音的生成；

- 语音编辑和降噪：VoiceBox 可以重新创建被噪音打断的部分语音或替换说错的词，而无需重新录制整个语音，就像用于音频编辑的橡皮擦一样；

- 跨语言风格转换：VoiceBox 目前支援英语、法语、德语、西班牙语、波兰语和葡萄牙语，如给定一段文本，能够用上述支援语言阅读翻译后的文本内容。这个功能预计能帮助人们能够用自己的声音说任何外语（即使他们不会说该种外语）；

- 多样化的语音采样：从不同的数据中学习后，VoiceBox 可以生成更能代表人们在现实世界中使用上述六种语言的谈话方式的语音。未来，此功能可用于语音生成合成数据，以帮助更好地训练语音助手模型。

VoiceBox还可以根据文本中的内容和情感，以及用户指定的元数据（如说话者、语言、性别、年龄等），动态地调整声音的风格和属性。这意味着VoiceBox可以生成多种不同的声音，并在同一段文本中实现无缝的声音切换。

使用VoiceBox，视障人士可以听到AI用他们的声音朗读朋友的书面信息，普通用户可以用自己的语调和语气来说外语。AI模型本身可以生成高质量的音频，消除汽车喇叭等不必要的背景噪音，同时保留音频的内容和风格。

Voicebox模型的未来应用场景，主要包括在元宇宙中为虚拟助理或NPC角色提供自然和多样的语音配音。Meta表示，VoiceBox也可以让元宇宙中的虚拟助手和NPC角色发出自然的声音，为创作者提供新的工具来轻松创建和编辑视频的音轨等。

例如，在一个冒险游戏中，VoiceBox可以为玩家遇到的各种角色生成不同的声音，如勇敢的骑士、神秘的巫师、可爱的精灵等。这些声音不仅能够反映角色的性格和情绪，还能够适应不同的场景和情境，如战斗、对话、歌唱等。VoiceBox还可以根据玩家的选择和行为动态地改变语音内容和风格，增加游戏的互动性和趣味性。

同时，Meta表示现阶段暂不计划向公众发布VoiceBox应用，以及它的开源代码，因为担心像目前AI换脸技术被滥用在诈骗上一样。

Meta意识到这项工具带来滥用和被用来犯罪的可能性，声称将为此构建一个分类器，以区分真实的音频和VoiceBox生成的语音，以减轻这些未来可能存在的风险。

严正声明：本文为元宇宙简史原创

为元宇宙NPC角色配音，Meta发布全新语音生成AI模型

关键词

相关阅读

拾叁益傲打造的元宇宙美术馆入驻“宇宙猜想”

全景欣赏梵高佳作，沉浸式体验元宇宙，数字经济体验周启动

Binance 与 The Weeknd 合作推出元宇宙世界“ Metaverse Dimension ”

手机天猫App：首款元宇宙产品“猫享大陆”将上线

论道元宇宙，第五届上海科幻影视产业论坛打造科幻行业“新时代风向标”

美图发布7款AIGC产品含AI视觉大模型、数字人等

LG发布首个生成式AI商业化服务Captioning AI

外媒：元宇宙为拉美创造新经济环境

“元宇宙”搬到线下，中传动画学院学子在别样毕业典礼中告别校园

加速发展数字经济实现突破科技影视——首届文化元宇宙暨微短剧产业大会明日举行

24快报

Meta向研究人员开放Aria项目，应对全天候AR挑战

南昌市重点发展元宇宙全息光学器件，孵化一批元宇宙前沿技术产

空天元宇宙的关键技术及应用研究

北京联通携手华为、工体元宇宙在新工体打造全球领先的5G-A立体组

香港eTeam：打造元宇宙“异世界”，为玩家带来电影级沉浸体验

Meta自2020年以来元宇宙部门亏损超580亿美元

苏州市精准布局元宇宙赛道，总产值达5万亿元

天津市新政：创办元宇宙未来产业企业最高获30万元支持

首个红色文化元宇宙XR数字展览《中轴之核-天安门印迹》亮相

OpenAI频陷侵权风波，印度媒体索赔2000万卢比

重庆大足石刻景区：虚拟数字人上线，元宇宙技术让古老石刻会 "

元宇宙VR大空间展现多领域发展潜力，将电影场景变为现实

元宇宙文旅热潮“解锁”文化消费新业态

中国移动咪咕发布鼓浪屿元宇宙商业生态合作计划

“元宇启新梦·虚实创未来”江西省互联网大会元宇宙分论坛在南昌

深耕元宇宙，瓣鼎科技CEO史明荣获行业大奖

强制出售Chrome？OpenAI或成潜在买家

工信部：AI大模型公共服务平台启动！加快大模型技术迭代和产品升

擅自收集敏感数据韩国处罚“元宇宙”1560万美元

阿里元境调整元宇宙行至岔路口