元宇宙是人类运用数字技术构建的三维虚拟世界,由现实世界映射或超越现实世界。刘海龙等学者认为,与其将元宇宙理解为下一代互联网,不如理解为人类的下一代数字生存。在元宇宙中,人、虚拟人和机器之间可以跨时空、跨媒介进行互动,构建新型交互关系网,打破现实空间和虚拟空间之间的边界,而其中的人际交互、人机交互模式也将被重新定义。元宇宙作为人际交互重构的“基础环境”,在未来将会拓展人类的交往空间、丰富人类的交往对象、加速人类的交往流动,提高人类的交往体验。
一、何为虚拟数字人?
虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。虚拟数字人具备以下三方面特征:一是拥有人的外观,具有特定的相貌、性别和性格等人物特征;二是拥有人的行为,具有用语言、面部表情和肢体动作表达的能力;三是拥有人的思想,具有识别外界环境、与人交流互动的能力。虚拟数字人具有“新媒介”属性,是基于“聚合科技”创造的数字形象,在元宇宙中担任信息制造及传递的载体和纽带,作为孪生介质将元宇宙中的“人—物—场”紧密链接在一起。
根据核心功能与需求的不同,虚拟数字人被分为服务型和身份型。量子位智库发布的《虚拟数字人深度产业报告》预计,2030年我国虚拟数字人市场规模将达到2700亿元,其中服务型虚拟人占比64.6%,身份型虚拟人占比35.4%,目前市场仍处于前期培育阶段,均有着广阔的发展前景。
1.服务型虚拟人。服务型虚拟人(如图1)落地多样化应用场景,具备一定的功能性,可提供多种服务,替代真人完成任务或提供日常陪伴、关怀等服务,如虚拟主播、虚拟老师、虚拟陪伴助手等。服务型虚拟人多用于企业服务和内容行业,自动化程度高,部分技术已经下放至普通用户。以虚拟主播为例,在虚拟主播创作平台上,使用者只需将需要播报的内容输入平台,自主选择主持人形象、音色、背景后,即可快速生成相关播报视频。使用者还可以利用时间轴,对虚拟数字人进行动作等调节。部分虚拟主播产品还支持插入演示面板、根据时间轴调整位置等,最终生成图文并茂并带有解释说明的视频。
2.身份型虚拟人。身份型虚拟人与当今流行的元宇宙概念高度相关,具有鲜明的身份性质。包括两种类型:一是虚拟IP偶像,以2007年出现的初音未来为代表,具有极高的商业化变现能力,在文娱领域发展前景广阔。虚拟IP可以满足运营的多种需求,打造稳定、低成本、个性化的定制IP,也能够很好地承载大众对理想偶像的感情诉求。二是虚拟世界第二分身,多以真人来驱动,满足个人对虚拟身份的需求,如Meta在其一系列VR应用中运用的虚拟形象(如图2),人们可以借助虚拟分身在元宇宙进行娱乐、社交、创作等。
二、AI主播:应用最活跃的虚拟数字人
虚拟主播与其他虚拟人相比,不仅具备语音表达能力,一般还具备语音播报、语音互动等能力。近年来,虚拟主播被广泛运用在新闻播报、直播带货、虚拟主持等领域。
在2001年,阿娜诺娃(Ananova)(如图3a)作为最早的一批虚拟主播被应用于电视新闻节目。阿娜诺娃可以实现24小时持续播报,但她在当时受限于呆板且僵化的表现力,与真人主播的差距过大,因此阿娜诺娃并没有长期应用于电视新闻节目播报。2016年12月1日,日本虚拟主播“绊爱”在YouTube的“A.I”频道中投递了第一个视频,并于2018年2月23日达成频道100万订阅。以“绊爱”为代表的虚拟主播开启了虚拟主播高速发展的时代。随着人工智能技术的快速发展,虚拟主播开始被广泛应用于新闻媒体平台,与阿娜诺娃等具有简单信息播报能力的虚拟主播相比,虚拟智能主播具备“符合受众期待的人格化设定”、足够真实化和自然的外观形象、自然语言理解与语言表达能力、情绪感知和情感交互能力,以及强大的学习能力。2018年11月7日,新华社发布“全球首个人工智能主播”,该工作引领了全球人工智能合成领域的技术创新和突破,开创了新闻行业实时音频和图像合成的先例。路透社以全球体育编辑欧森·夏恩(Ossian Shine)为原型开发了一位AI强化虚拟体育主播(AI-enhanced virtual sports presenters),使其成为全球首位具有自动化体育报道能力的主持人(如图3b)。欧森·夏恩与阿娜诺娃的3D形象不同,这位体育主播是基于真人的视频拍摄素材为输入,基于AI的手段来渲染生成实时的播报画面。2022年,依靠语音识别、自然语音理解等技术作为驱动的央视AI手语主播亮相于北京冬奥会和冬残奥会,她不仅能报道冬奥新闻,还能进行准确及时的赛事手语直播(如图3c)。央视AI手语主播因其具有亲和力的外表和准确的手语翻译能力,受到了国内观众的喜爱。在2022两会期间,央视财经评论员王冠(真人新闻主播)与AI超仿真主播王冠(虚拟新闻主播)同屏,亮相《“冠”察两会》特别节目(如图3d)。在节目中,“AI王冠”作为控场主持人连线财经评论员王冠,语言表达清晰、声音富有情感、手势变化自如,与真人王冠配合十分默契,吸引了观众们的注意。除了在技术上具备了媲美真人主播的表达能力,“AI王冠”还掌握了一定的信息传播技巧。如“AI王冠”善于借助生活化场景拉近主流新闻媒体与普通受众之间的距离,学者翁杨等人提出“AI王冠”以烟火气息浓厚的传播范式增强受众的情感共鸣,促进价值观塑造,加强受众的认同感。艾媒咨询数据显示,2021年虚拟主播核心产业数据达到62.2亿元,最具代表性的国内虚拟主播平台B站的虚拟专区的互动人数已翻两倍,用户付费数额增长更是迅猛。
虚拟主播主要是通过与受众进行语音和非语言沟通来实现信息的传递,但不同类型的虚拟主播与人的互动方式存在一定的差异。其中负责新闻播报的主播主要是通过呈现“先赋角色”的方式,即将预设的新闻主播职业特性赋予到新闻播报之中,呈现出专业、有亲和力的语音播报。由于新闻播报类主播很少涉及访谈、互动等需要临场发挥的内容,因此此类主播与受众之间的互动性较弱,其中具有代表性的有新华社主播“新小萌”;还有一部分的虚拟主播需要具备新闻主持、对话访谈等即兴表达的能力,此类虚拟主播具有信息感知、信息处理与多模态表达的能力。具体表现不仅能传达信息,还可以实现与人类主持人以及观众之间的对话互动。如北京卫视推出的“时间小妮”虚拟主播重在打造用户服务功能,能解答观众的相关提问;除了新闻媒体领域,在直播平台也诞生了大量虚拟主播。直播平台的互动方式一般会更加深入,虚拟主播通过动作捕捉技术将背后的扮演者以虚拟形象呈现于荧幕前,满足受众对完美形象的期待,同时受众能通过一定的反馈来控制虚拟主播的行为特征。学者秦莹认为,观众与虚拟主播在网络直播平台中的双向互动,更大程度上属于“一种符号的互动”。观众向自己喜爱的虚拟主播进行互动的根本动机是寻求自己与主播在文化上的认同感。
三、元宇宙中的三种交互形态:人机交互、人际交互、万物智联
随着现代社会的发展,媒介不再仅仅是作为资讯内容的中介者,而成为了新的社会形态的激活者、整合者和构建者,在元宇宙生态当中,人和机器之间的不同组合形成了三种交互形态:人与人之间的信息交互形成人际交互、人与机器之间的信息交互形成人机交互、机器与机器之间的信息交互形成万物智联。这两大主体与其形成的交互形态构成元宇宙的交互关系网,构建起元宇宙的交互生态。而在人与人、人与机器、机器与机器之间产生联系或发生孪生关系的过程中,虚拟数字人成为新的介质,充当连接真实空间和虚拟空间的枢纽。
1.元宇宙中的人际交互。在元宇宙当中,人与人的交互超越了现实世界的人际关系,在自然人、身份型虚拟人、服务型虚拟人之间形成了多种人际关系和交互场景。自然人是现实世界当中的人类个体,虚拟数字人化身是带有自然人身份属性的虚拟形象,无真身虚拟人是现实中完全不存在的虚拟形象。自然人不仅能够在现实世界中与另一自然人进行直接交流,还能与另一自然人的虚拟数字人化身进行交互,如“我”欣赏虚拟偶像化身的演唱会。抑或自然人之间皆通过虚拟数字人化身进行交互,如“我”的虚拟化身与他人的虚拟化身同时在元宇宙世界中进行会议研讨。除此以外,无真身虚拟人也在自然人之间起到信息交换的作用,如儿童虚拟陪伴助手将用户数据反馈给家长。
在元宇宙环境中的人际交互具有重塑身份的特点,即人类主体会不可避免地在真实和想象的身份角色之间进行切换,这样可能会导致人们在互动的过程中混淆自己的身份,而不知道哪一个是真正的自己。因此,元宇宙中的人与人之间的互动,重塑了“身份”的价值和意义。
此外,元宇宙环境中的人际交互还具有匿名的特点。现实生活中的个体是元宇宙世界中人际交往的主体。学者Peng L提出,个人可以随意创建自己的虚拟形象,包括外观、语音、性别、种族、交流风格等,从而使信息沟通变得匿名和多元化。正如Facebook的一项研究所报道的,这种行为的意义在于,人们在虚拟的社交环境中,可以缓解他们在现实生活中第一次遇到陌生人时的尴尬,同时也增加了他们的信心。此外,虚拟化身还可以减少现实生活中由性别和种族造成的歧视。
总体而言,多种类型的人际交互打破了物理空间的界限,并实现了时间上的延伸。在空间维度中,物理上相距较远的自然人能通过其虚拟数字人化身实现面对面交流,增强交流在场感,提升交流效率。在时间维度中,非同一时刻在场的自然人能够通过虚拟数字人进行延时交流,如通过舞台全息投影,自然人歌手和已故歌手邓丽君的虚拟数字人化身同台合唱。在元宇宙中,人与人之间通过虚拟数字人实现了人际交互的时空拓展。
2.元宇宙中的人机交互。人际交往的参与者可以是人类个体,例如游戏世界中的真实玩家,也可以是虚拟角色。这部分主要讨论在元宇宙环境中,人与服务型虚拟人之间的交互。
作为虚拟数字世界的入口,虚拟数字人提供的沉浸式的体验成为连接现实与虚拟的桥梁。马克·汉森(Hansen M)指出,新媒体技术重新调整了身体和技术之间的关系,技术试图通过动作捕捉、感官刺激、视觉界面等来修复我们的身体与世界之间的关系。人们感知世界的方式将从视觉主导的感知体验转变为全身主导的感知体验。这种人机互动和人机合作方式使得元宇宙中的人际关系和交互场景更加丰富,带来全新的多感官用户体验。随着XR、数字孪生、人工智能等技术的发展和应用,我们将实现在元宇宙场景中的深度交互,无障碍沟通。此外,虚拟数字人的存在也可能会让人类模糊现实和虚拟之间的界限,人类会有某种时间、空间和身份错位的感觉,需要一些时间来适应他们所处的环境,这会给交流带来一定的心理噪音。
虚拟人通过提供类人化的情感劳动给受众带来真切的情感体验。自然逼真的虚拟人在带来高沉浸感的同时,激发人们的互动和分享欲,极大程度地满足了人的社交需求,实现了情感的连接和流动,体现了元宇宙时代下的人文关怀。学者翁杨等人提出,虚拟主播作为元宇宙时代信息传播的代言人,主播与观众已不再是单一的视听关系,而是虚实交替、高效互动的关系。目前,在广播电视行业深度合作较多、最具代表性的虚拟主播是由微软研发的人工智能小冰。作为世界人工智能大会的虚拟主持人,小冰时而运用贯口为观众介绍最新大会资讯,时而与观众调侃互动,生动鲜活。在音乐广播《小冰秀》中,小冰则扮演着真人主播的好帮手,在热点资讯播报和固定环节问答中营造气氛,通过丰富的情绪和知识表达为节目增色,人机合作共同完成节目内容的制作播出。小冰还在微博上积极与“粉丝”互动,对“粉丝”的评论进行回答,有效地增强了与“粉丝”之间的深层连接。可见,虚拟主播通过发挥自身形象、技术的优势,可有效提高与观众间的交互性、临场感和趣味性,观众的互动积极性和能力也不断提升,交互效率显著提高。在未来,虚拟主播的多元化、智能化应用必将成为一种重要的传播媒介。
3.元宇宙中的万物智联。机器(服务型虚拟人)是元宇宙中不可缺少的组成部分,在元宇宙中的人际关系除了人与人、人与机器,还存在机器(服务型虚拟人)之间的信息交互。将数字孪生技术与人工智能相结合,通过机器(虚拟人)与机器(虚拟人)之间的交互协作形成万物智联,以人为中心,围绕生活场景和行为习惯,实现智能设备间的无缝协作,让用户更便捷地获取想要的服务。
目前,距离“元宇宙”乃至“万物智联”的基础构想还有相当长的一段路要走。以智能家居为例,一台智能终端设备只对应一款APP、一个AI虚拟助手,设备间各自为战,缺乏配合,不仅给用户的使用制造了不便,也成了智能家居普及与推广的巨大阻碍。正如涂鸦智能联合创始人杨懿所说,“元宇宙如果落到真实世界,所有事物都需要有一个通用的连接层串联在一起。连接的本质,就是设备能够形成互联互通的体系,是真实世界与元宇宙之间在数据层、应用层、交互层上的关联”。只有机器间有机结合,相互传递信息、提供方案,融合成一个整体终端,才能真正迎来“万物智联”的元宇宙时代。
作者侯文军系北京邮电大学数字媒体与设计艺术学院教授、博士生导师
卜瑶华系北京邮电大学数字媒体与设计艺术学院设计系教师
刘聪林系百度在线网络技术(北京)有限公司高级产品运营师
编辑:郭文昕
本文刊发于《传媒》2023年04期