2012年7月12日,*个虚拟偶像洛天依出道,她推出了《普通Disco》《东京不太热》等知名歌曲,登上了北京冬奥的舞台,在B站上拥有近300万粉丝。
在海外的Instagram平台上,LilMiquela是一位来自美国洛杉矶的19岁虚拟偶像博主,拥有298万粉丝。她拥有巴西与西班牙的血统,标志性的造型是齐刘海、雀斑和双丸子头,经常与Gucci、Chanel等大牌合作。
图|LilMiquela
实际上,在我国近年来发展迅速的视频平台上,涌现出了许多知名的虚拟数字人:会捉妖的美妆达人柳夜熙、虚拟偶像团体A-Soul、清华的虚拟学生华智冰等等。
虚拟数字人的产业迅速发展起来。
美国著名的科幻作家尼尔·斯蒂芬森曾在其1992年出版的小说《雪崩》中,描绘了一个在现实世界之外的、由电脑和网络构成的赛博空间Metaverse,这也是如今爆火的「元宇宙」概念的起源。
对于一个Metaverse来说,所有现实世界的人在Metaverse中都有一个替身(Avatar),而虚拟数字人正是人类进入这个未来的数字世界的入口。
什么是虚拟数字人?
虚拟数字人是近年来出现的较为新颖的概念,因此没有一个统一且确定的概念界定。
从最基本的词义拆解来看,虚拟数字人包括「虚拟」和「数字」两个基础概念。所谓「虚拟」的人,强调人物身份虚构、通过计算机图形学技术进行虚拟制作且具备人类的外观和行为模式的人;而所谓「数字」的人,则是指存在于数字世界,身份设定和外观可以按照现实世界中的人物进行设定。
总结来看,根据中国人工智能产业发展联盟总体组和中关村数智人工智能产业联盟数字人工作委员会发布的《2020 年虚拟数字人发展白皮书》中对虚拟数字人的描述是:
与具备实体的机器人不同,虚拟数字人依赖显示设备存在。虚拟数字人宜具备以下三方面特征:
一是拥有人的外观,具有特定的相貌、性别和性格等人物特征;
二是拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;
三是拥有人的思想,具有识别外界环境、并能与人交流互动的能力。
实际上,从广义上来看,虚拟数字人的发展历史由来已久。
早在20世纪80年代,人们就开始尝试将虚拟人物引入到现实世界,比如1982年,世界上*位虚拟歌姬林明美出现了,虽然当时技术是以传统的手绘为主,但显示出了虚拟人概念的萌芽。在21世纪初,计算机技术飞速发展,CG(计算机动画)技术和动作捕捉技术发展日益成熟,日本制作了*个被广泛认可的虚拟偶像初音未来,对虚拟数字人的探索越来越丰富。
近5年来,随着深度学习的算法取得突破,虚拟数字人的制作过程也得到了有效地简化。2019年,浦发银行和百度共同合作开发的银行业首位数字员工正式亮相;2018年,搜狗与新华社联合发布全球*全仿真智能AI主持人。
而如今,随着虚拟数字人上下游的技术全面提升与突破,虚拟数字人也朝着全面的智能化、便捷化、精细化、多样化发展。2020年,三星旗下STAR Labs展示了其设计的虚拟数字人NEON,显示出了虚拟数字人在当下的飞速成长。
遍览市面上的虚拟数字人,我们可以从外观、技术和具体应用场景三个角度来进行分类。
从外观上来看,我们可以大致分为三类,以洛天依、A-SOUL为代表的卡通类;以Lil Miquela、湖南主持人小漾为代表的写实类;以及以清华华智冰、腾讯Siren为代表的超写实类。
图 | 虚拟数字人外观的分类
从虚拟人制作技术的角度看,也可以分为三种。*种,是以形象和语音合成实现的非交互型的虚拟数字人,以洛天依为代表;第二种,是近年来涌现出的以真人驱动实现的虚拟数字人,即虚拟背后有一个真人贡献了声音、动作等,以A-soul为代表,他们可以和用户产生一些互动,但是互动的来源是背后的真人;第三种,是随着AI技术的发展,出现的以AI驱动、能与用户产生AI的对话,甚至能自动生成唇形表情的虚拟数字人,目前在市场上的AI驱动型的知名虚拟数字人还相对较少。
从具体的应用上来看,虚拟数字人可以分为服务型虚拟数字人与身份型虚拟数字人。服务型虚拟数字人长应用于虚拟客服、虚拟导师,带货主播等场景;而身份型虚拟数字人,则被常常用以打造一些可供运营的IP,成为社交内容平台的虚拟主播或偶像。
一个虚拟数字人是怎么诞生的?
从无到有创建一个虚拟的数字人不是一件容易的事。按照主要的流程,需要经过建模、驱动、渲染三个关键步骤。
建模是虚拟数字人制作的*步,目标是制作出人物的形象。在建模的方式上,目前有手工建模、仪器采集建模和人工智能建模三种。
手工建模是目前应用较广的一种建模方式。一般来说,是通过电脑软件画出设计稿、描绘构建出人物的视图,然后根据设计图纸确定人物三维的图形。整体成本都比较高,一个超写实虚拟人的模型可能需要上百万元。
但是近年来,也出现了一些手工建模的工具应用,极大的提高了生产效率。例如在2021年初,虚幻引擎开发商Epic Games推出了Metahuman Creator,用于快速创造出非常真实的虚拟数字人,任何人都可以在数分钟内完成创作。
这款工具提供给了用户从发型、肤质到体型等多种真人扫描的素材,用户可自行组合素材以快速创建高保真虚拟人。而且渲染能力也十分厉害,可实现光源在不同肤色和纹理下的不同呈现,从而达到极高的精细度。
图 | MetahumanCreator
仪器采集建模的方式,通常用于真人1:1的还原,比如明星的真人还原或者是虚拟的分身等。相机阵列扫描重建的技术在专业级的影视及游戏中,应用较为广泛。这项技术通过瞬时获取同一时刻同一对象的全方位照片信息,然后经过后期的软件计算、建模,最终得到对象的3D模型,能达到毫米级的重建精度。
图|相机阵列扫描重建
人工智能建模是近年来随着人工智能技术的发展出现的第三种建模的方式。主要的建模原理是:通过对大量的照片和视频进行分析,利用算法模拟出关键模型。这种建模的方式依赖于样本的数量,针对单个人物样本越多,则模型越精准。但目前技术还不成熟,还远不能完全取代纯人工建模与借助采集设备进行建模的结果。
建模之后,人物便有了基本的模样。第二步,便是赋予这个静态的模型,正常行动的能力,在虚拟数字人的技术上,我们称之为「驱动」。
在目前的驱动方式上,主要分为两种。一种是中之人驱动,另一种则是人工智能驱动。
所谓「中之人」,本来指的是特摄角色皮套里面的真人演员。到了近年,中之人通常指的是虚拟直播主背后的真人直播主。在目前的虚拟数字人的实际应用中,仍然大部分以中之人来进行驱动。
将中之人的动作与虚拟数字人产品一致性的联动,需要通过设备,将中之人的动作、视觉、面部表情等进行捕捉,将中之人的语音和其画面进行合成,是一套耗费相当大成本的操作。
而另一种人工智能的驱动方式,则是利用算法,输入大量的图像、文本、语音等原始数据,通过深度学习的方式,生成相应的内容,再将音频和影像进行整体的输出。其中涉及到的技术包括计算机视觉、语音识别、自然语言推理、自然语言理解、自然语义生成、语音合成等众多技术。
在渲染的技术上,目前技术的成熟度较高,虚拟人的制作公司只需利用已有的渲染软件进行相应画面的处理和导出即可。在离线场景下,计算资源较为丰富,渲染的画面质量也会高。实时渲染的场景下,需要更多的硬件资源做支撑才能渲染出更高质量的画面。目前也有一些云端渲染的工具,虽然对硬件设备的要求较低,但是画面的精度也相对较低。
虚拟与真实的交互共生
当虚拟数字人被创造出来以后,更重要的是与现实世界的人产生交互,这样才能在真实世界产生真实的应用。目前虚拟数字人在真实世界中与用户互动的方式,也主要分为:中之人直接进行交互,人工智能进行交互两种方式。这两种交互的方式也对应着虚拟数字人在商业世界里不同的应用场景。
以中之人驱动的虚拟数字人,其交互方式是通过其背后的真人来产生互动。我们在各个社交内容平台上看到的虚拟网红主播们,大部分都是这样的交互方式。
实际上,人们在追逐虚拟数字人的偶像时,更多地是关注与虚拟主播之间产生的互动与连接感,满足内心的情感需求。以中之人的形式直接与用户产生互动时,在本质上还是人与人之间的连结与互动,这样的交互会非常人性而自然。
在目前的直播平台上,以中之人驱动的虚拟数字人显示出了强大的商业化能力。2022年5月,B站观看量排行前20的直播中,虚拟主播占比达到30%。2021年,B站虚拟主播直播打赏营收整年保持了100%以上的同比增速,转化率维持在20%左右。虎牙、酷狗、爱奇艺等平台都开设了虚拟主播相关的直播频道。
从商业效率与稳定性的角度看,中之人驱动与交互的方式也存在着不少弊端:生产效率低,一个中之人只能驱动一个虚拟人,难以实现量产;而且中之人的角色至关重要,与虚拟数字人之间的关系需要处理得当,一个虚拟数字人的中之人演员的离开,可能会造成非常大的损失。
而人工智能与人直接交互的形式,受限于目前的人工智能的技术,目前还仅仅停留在相对简单的口令式阶段中。在目前实际的应用中,这类虚拟数字人常常作为服务型的角色,例如虚拟客服、虚拟导游、虚拟教师等。
但是随着人工智能技术的进一步发展与成熟,特别是AGI技术的演进,或许有一天,我们将会真的看到在《西部世界》《失控玩家》中出现的具有自我意识的虚拟人。在元宇宙虚实共生的图景逐步完善后,虚拟数字人市场也将迎来以人机交互为主要发展方向的二次爆发。