科幻小说描述的场景,正在成为今天的现实。
12 月 10 日,在中国科幻界「诺贝尔」——第十三届华语科幻星云奖的颁奖典礼上,发生了有趣的一幕:MMC 工作室的科幻游戏《星球:重启》问鼎最佳科幻游戏创意奖,现场领奖的却不是主创团队,科幻作家刘慈欣把奖杯颁给了一名游戏角色——虚拟人李星澜 Lydia。
在《星球:重启》游戏中,玩家是在 2112 年星球遭受外星入侵后的幸存者。作为一名来自 2112 年的超级人工智能少女,李星澜为了拯救世界牺牲自己,将身体分解成信号发送回了 21 世纪。她的任务是召集 21 世纪人类一起回到未来拯救世界。在游戏中,李星澜是游戏中每位幸存者最好的伙伴。她将是玩家的新手「引导员」,也是玩家在历险中的「好助手」,更是跌宕剧情中的「女主角」。她也将为了拯救世界,牺牲自己回到 21 世纪。这科幻色彩十足的游戏设定,赋予了李星澜鲜活的人设,让她的「灵魂」得以诞生。
李星澜不是简单的游戏 NPC,根据开发团队 MMC 工作室介绍,李星澜是他们的首位真 · 元宇宙虚拟人,不仅在游戏中引导玩家,在游戏外,发抖音、接代言、做主持人、领个奖、看个秀都不在话下。超写实皮囊让她在今年 4 月「穿」回地球后,发布十几个视频就积累了上千万的播放量。
李星澜也不是传统意义上的「虚拟人」,一方面是外形更加「像」人;另一方面,也是更重要的,驱动她的内核不再是「中之人」,而是最新的 AI 技术。
在李星澜身上,人设灵魂、外形皮囊和 AI 内核让她和已诞生的虚拟人们如此不同——这引起了我们的好奇:创造李星澜的背后到底是什么样的技术?一个 AI 驱动的虚拟人,能有什么样的产业价值?颁奖结束后,我们向 MMC 工作室请教,后者和我们分享了李星澜背后的技术,以及他们对未来虚拟人产业发展的思考。
「好皮囊」的背后,是更高效的制作技术
外表宛若邻家小妹的李星澜,其背后是几乎已经做到了当前市面上最极致的超写实虚拟人「皮囊」技术。李星澜的制作团队有着成熟完整的生产管线,其中既有自研技术,也有来自 NVIDIA 相关技术的加成。
社媒视频中的李星澜
创造一个虚拟 3D 形象并不是什么新鲜的技术,但让虚拟人能在不同场景下,像真人一样做出活灵活现的动作和表情却并不容易,尤其是在不借助演员动捕的情况下。
为了解决这个难点,MMC 工作室自研了四项关键专利技术,这些技术与超写实数字人的表情绑定及高精度面捕相关。这部分技术的核心在于如何更高效地完成高精度数字人的模型制作。据 MMC 工作室透露,采用相关自研技术后,能节约 30% 的模型制作成本。
据工作室数字人团队负责人山谦介绍,其自研的技术核心在于数字人面部基表情制作和自动化绑定,「基表情是指面部表情编码系统会有一系列基础表情,通过这些基表情组合就可以满足各种不同的表情表现需求。」通过扫描真人表情,以及通过美术进一步刻画,团队为李星澜制作出 70 多个基表情,是市面上大部分虚拟人的一倍以上。
自动化绑定则极大提高了整个虚拟人生成表情的效率,山谦提到,「以前要把基表情人工一步一步绑定到虚拟人模型上,自动化绑定后就可以自动地完成整个虚拟人物的所有的面部表情的生成。」
此外,引入 NVIDIA 的技术支持也大大提升了工作室的效率。3D 资产制作、渲染相关的软件工具繁多,工序复杂一直是产业痛点之一,而 MMC 工作室采用的 NVIDIA 相关技术也在协作和渲染方面提供了极大的加成。
协作上,无论是负责技术,还是设计、美术的团队成员,都可以通过 NVIDIA Omniverse 这一 3D 仿真虚拟和协作平台相互连接,Omniverse 可以统一整合资产、库和工具,这项优势能让艺术家在多种应用之间实时导入和编辑素材,以助其实现更大程度的创作自由。
同时借助实时光线追踪和交互式路径追踪技术,以及云端 GPU 资源,Omniverse 可以实时渲染出高保真、物理级精确的结果,相比过去影视制作中动辄几十数百小时的渲染时间大大缩短,从而大幅降低了工作室的时间成本。
AIGC,虚拟人的「内核」
相比「皮囊」,驱动虚拟人的「内核」更加关键。如果说今天前者更多是在解决从 1 到 10 的效率问题,那么后者需要解决的则是从 0 到 1 的突破。
过去虚拟人的「内核」来自扮演的中之人,而李星澜更进一步,她的「内核」来源于人工智能,AI 技术整体的发展是虚拟人更有「内核」的基础,不同的虚拟人项目需要在大的技术背景下更好应用落地,创造价值。
李星澜团队产品负责人肉山介绍,李星澜的对话交互结构设计分为三个模块——基础对话集成、对话生动表现、对话策略能力,三部分在虚拟人的实时对话能力表现中能力逐渐递进,从「智障」逐渐变得「智能」,从明显的「机器人」感觉,只能用于客服环境,到让人有时已经分不清她是一个机器人,即使知道,也可能会投入情感,在某些瞬间把她当作一个「真人」。
基础对话集成是基础的对话模块能力,包含了 NLP(Natural Language Processing,自然语言处理)的生成模型,包含了音色合成、语音转换及敏感词管理等。常见使用场景便是比如语音助手、电商、银行的对话机器人,给你打骚扰电话的机器人等。
在一项调查中,让人们想出一个最能代表你是真人而非 AI 的词,大多数人会选择包括悲伤、愤怒等强烈情绪的词语,甚至脏话。那么想让 AI 更像人,也需要让 TA 们学会「表达情绪」。
对话生动表现能力就是李星澜表现情绪的能力。据肉山介绍,虚拟人有基于人情绪的分类标签,最基础的有 8 种,常用的有 20 多种,李星澜用的是 30 多种。基于「机器人」式的基础对话文本,用情绪分类标签定义它生成的每一句话,比如开心、愤怒、沮丧 ……
表现这些情绪的方式也和人类一样,语气、表情、肢体,这些都要基于情绪标签,进一步用算法生成。生气时皱眉、开心时微笑、沮丧时低头 …… 加上算法加成的肢体和面部表现,就生成了一个 AI 驱动的虚拟人的整体形象。
不过做到这些,也只是让虚拟人略显生动,和 2D 人物相比,在超写实数字人身上,稍有不慎还是会出现不自然甚至恐怖谷的情况,虚拟人的生动表现能力还在持续迭代中。
比如眼神对视在人的交流中非常重要,虽然目前还无法让虚拟人和人交流时眼波流转,不过肉山介绍,李星澜已经可以「和你对视」,对视可以让人产生真正的人与人的交流感,「视觉交互方面,落地场景可以调用摄像头,李星澜就可以看着交互的对象,眼神会聚焦到对话人身上。」
对话策略能力是基于人设的扩充模块,也就是让李星澜之所以是李星澜,而不是别的虚拟人的地方。肉山介绍道,「基于人物设定,李星澜拥有属于她自己的知识、记忆、技能,她会带你进入哪些情境模块,她有特殊偏好的话题。」
在口型生成和面部算法表现加成上,李星澜团队借助了 NVIDIA 的技术能力来提高模型训练效率。
为了加快在创造李星澜中使用的深度学习模型的训练周期,团队利用了 NVIDIA GPU 加速器。除了硬件,团队还利用了 FP16 混合精度训练和 Megatron-LM 风格的模型并行方案,在不牺牲收敛质量的情况下进一步提升训练吞吐量。团队目前的系统总共使用了约几十个 NVIDIA GPU,并且能够在两天内完全训练 audio2motion 和 text2speech 模型,并在五天内完全训练基于 Transformer 的 Chatbot 模型,生成超过 10TB 的训练数据。
在推理方面,团队利用了另一 NVIDIA GPU 集群,还将 NVIDIA 的 FasterTransformer(一种基于 CUDA、cuBLAS 和 cuBLASLt 的定制解决方案,用于优化 Transformer 架构)整合到其推理运行时中,从而将推理延迟减半,使李星澜能够以高度响应的方式与观众互动。
简而言之,以丰富的 GPU 计算资源为支撑,并结合 NVIDIA 团队量身定制的 AI 系统进行优化,MMC 工作室在创造李星澜的过程中,在几个月的时间内就完成了打造高质量虚拟人的端到端迭代。
另外,得益于 NVIDIA Omniverse 中 Audio2Face 的高精度效果,数字人的口型表情表现得到了明显提升。Omniverse Audio2Face 是一款由 NVIDIA 深度学习 AI 技术提供动力支持的应用程序,仅基于一个音频来源即可快速轻松生成表情丰富的面部表情动画。只需录制语音音轨,然后输入到该应用中,即可看到 3D 角色的面孔变得活灵活现。
同时,Audio2Face 让用户能够在眨眼之间选择角色的情绪,并为其设置相应的动画。AI 网络会自动操纵脸部、眼睛、嘴部、舌头和头部运动,以匹配所选择的情绪范围和定制的情绪强度水平,或直接从音频剪辑中自动推断情绪。
虚拟人,终极形态升级中
在虚拟人赛道热度持续的这一年多里,「生」出来很多虚拟人,有的活着,也有的已经「赛博死亡」。虚拟人的自由野蛮生长,似乎到了需要些梳理的时候。
从「皮囊」即外观来看,有的虚拟人仍然使用 2D 即「二次元」形象,比如大量的虚拟主播,有的则「卷」起身份型超写实数字人形象,例如「翎」「AYAYI」。
从「内核」即驱动方式上看,虚拟人产业一直存在两条技术路线,一条是「中之人」驱动的「套皮」虚拟偶像,例如和李星澜同出一门的虚拟偶像「A-soul」,其火爆背后的商业模式内核是偶像娱乐工业;另一条路线是以 AI 驱动的服务型虚拟人,落地场景有「Siri 们」系统助手、文字语音问答机器人等,还被称为「人工智障」,他们的「内核」不够有趣,无法吸引更多注意力。
在 AI 技术大发展的当下节点,虚拟人产业下一步走向何处,已经成为各团队需要思考的问题。从科幻游戏场景诞生的李星澜,在诞生之时就需要接近真人的超写实形象,也需要更为智慧的「内核」。
李星澜有「Siri 们」的解决问题的能力,也有「AYAYI」们的漂亮皮囊,还有更强的情绪和生动的交流,更丰富的人物设定感。
肉山提到,李星澜其实构建的是身份型加服务型合二为一的数字人,在李星澜团队的思考中,这将是最终的虚拟人形态。「之前我们说市场上没有这样的虚拟人是因为技术还没有到这一步,现在就可以融合这两者了,这样的形态也是我们最终对虚拟人所想象的形态,包括《钢铁侠》里的贾维斯(人工智能管家),也是身份加服务的类型。」
从商业化角度看,当前的虚拟人产业模式并没有完全闭环产生真正价值。山谦表示,观察下来,市面上的虚拟人很多是跟风,为了元宇宙而元宇宙,或者是用来做 ToB 业务宣传,出发点是展示技术,创造一些商业价值。「李星澜从一开始就是我们游戏的核心角色,发现玩家在游戏中跟她有交互后,希望这个角色不光存在游戏中,还希望在生活中也能看到她,于是我们让李星澜成为一个独立的虚拟人 IP,是基于游戏业务出现的一个自然而然的硬需求。」
基于游戏,李星澜和其他市面上仅有超写实「美丽皮囊」的虚拟人不同,李星澜有自己的故事,丰富的人物性格,有成长时间线。她可以在游戏中,24 小时的支持、陪伴、引导着每位玩家。她的智能系统也将嵌入到游戏集成的功能界面里,在交互中,玩家可以更好的了解 2112 年的未来世界。「如果你想了解他的过去,你可以在游戏中跟他交互。如果你想了解他的现在,你可以在直播、抖音等社交媒体去感受来到现代社会的她。」
在 IP 打造的阶段,李星澜项目会基于游戏体验开始,过程中积累我们的技术管线能力。山谦提到,「我们希望能通过做一个头部的标杆产品,创造一个文化现象,和内外部合作,打造 IP。」
基于李星澜的案例,团队已经完成了整个管线的打通,计划运用到更大规模的数字人制作场景。山谦表示,当前团队下一阶段目标要攻克的难点就在于,大规模的数字人制作场景的效果和效率优化,「基表情这一套系统还要持续提升,目前长得和李星澜比较像的自动化绑定效果较好,一但形象差异较大,就会出现一些问题。当下我们正在通过积累更多基表情数据库来解决。」
在当前,虚拟人产业仍然处于早期阶段,共同进步是每个产业内的人希望的,游戏和 IP 之后,李星澜团队同样希望把自己的技术能力提供出去,山谦表示,「我们也愿意把我们的技术能力管线化、工业化,能够提供更多的服务给外界。」
正如刘慈欣在星云奖的颁奖词中所说,「《星球:重启》把中国科幻从纸张和银幕上精心剪裁下来,编织进浩瀚的程序里」。虚拟人的未来,李星澜这样有皮囊、有灵魂有技术内核的虚拟人,会从科幻和游戏中走出,和前沿技术结合,走入更多领域,带来更大能量。
本文来自微信公众号 " 极客公园 "(ID:geekpark),作者:郑玥