研究

元宇宙行业研究:未来发展之路,虚拟人的“灵魂”是什么?

在聚焦元宇宙大赛道时,虚拟人作为重要的交互载体被市场所重视,过去几年随着建模技术的提升,虚拟人的生产制造日趋成熟,但作为数字世界的“人”,它只是一个动漫形象吗?

在聚焦元宇宙大赛道时,虚拟人作为重要的交互载体被市场所重视,过去几年随着建模技术的提升,虚拟人的生产制造日趋成熟,但作为数字世界的“人”,它只是一个动漫形象吗?如何让虚拟人具备不一样的“灵魂”?

本文,我们将结合元宇宙,探讨虚拟人行业未来发展之路。

1. 虚拟人现状:公司与社区共创作,功能与 IP 价值齐发展

近期虚拟人的热度不断提升,10 月 31 日,虚拟人柳夜熙在抖音横空出世,一夜涨粉百万。

柳夜熙并不是第一个虚拟人,清华大学的华智冰、抖音红人阿喜,变装女神集原美,在各大社交平台上都拥有一批的粉丝喜爱和追捧。

全国有近 4 亿人关注过虚拟偶像,去年虚拟偶像市场达到 2000 亿,两年时间翻了一倍。在 2021英伟达 GTC 大会上,黄仁勋重点介绍了虚拟分身(avatar)Toy-me 和虚拟人,对答如流令人印象深刻。

什么是虚拟人?

虚拟人就是以数字形式存在的,具有人的外观、特点、行为,依赖显示设备展示的虚拟形象。简单来说,虚拟人物就是让用户感觉到人格的数字形象。当下,虚拟人可以扮演多种角色,包括虚拟主播、虚拟偶像、虚拟记者、虚拟助手等等。

虚拟人是元宇宙重要的赛道,能够为元宇宙带来丰富的内容和沉浸式的体验。

虚拟人的创作运营主要依靠专业团队商业化运作,以及爱好者社区的 UGC 内容;而在虚拟人的应用场景方面主要是强调功能与 IP 价值。

我们从创作运营与应用场景两个维度,可以将虚拟人作以下四种分类:服务型虚拟人(PGC+功能型)、虚拟偶像(PGC+IP 价值)、数字化身(UGC+功能型)、创作载体(UGC+IP 价值)。四种类别的虚拟人的应用上有着完全不同的发展路径,制作上共用相关技术但略有差异。

服务型虚拟人为用户提供拟人化的社会服务。

相较于聊天机器人、数字助理和数字人,服务型虚拟人的优势在于高精度建模与人工智能使得其能更大范围地承接社会工作。从影视到金融再到游戏,虚拟人可以承担多种服务型角色,为用户提供智能高效的人性化服务。

新华社的虚拟记者、央视的虚拟手语师都属于此列,这些工作需要人的形象,成为了服务型虚拟人很好的落地场景。

虚拟偶像是通过科技手段展现的虚拟形象,有着自己的人设。

虚拟偶像也可以举办的演唱会、直播,发行周边产品,参与商品代言,甚至参与影视剧中扮演角色。虚拟偶像由公司运营 IP,专业化团队生产内容。

例如 2016 年日本虚拟偶像“绊爱”诞生,主创团队赋予其“人工智障”的呆萌人设,4 个月内粉丝量达 40 万,主要在视频平台发布作品,这类“Vtuber”开始兴起。

服务型虚拟人和虚拟偶像类都是依靠专业团队制作、运营,更好的增强平台和用户间的交互,近年来 MCN 的崛起使此类虚拟人有更多的变现通道和商业模式,成为新媒体、抖音等“新宠”。

整体而言,此类虚拟人基于 PGC,制作精良但生态相对封闭,制作和运营的过程通过自有团队或外包完成,虚拟人的“灵魂”由主办方定义、制作平台打造。

虚拟化身(Avatar)从游戏“捏脸”发展而来,给用户带来高度沉浸。

满足用户个性化需求的“捏脸”游戏起源于单机游戏《上古卷轴 3》,现已广泛应用于各类游戏种。在其漫漫发展历程中,“捏脸”系统可调参数据类型得到极大丰富,复杂程度也随着算法的精进而逐步提升。

未来虚拟化身 Avatar 除了在游戏应用得风生水起,还能促进社交活动网络化。虚拟化身能够增强用户代入感,同时能够满足虚拟应用场景。

作为社区创作载体,这类虚拟人的形象和表达都不是固定的。

最为熟知的创作载体“初音未来”是 Crypton 公司在语音合成引擎 VOCALOID 上出售的声源,并附带拟人化形象。

由于该声源有着美妙的人声合成音,以及 Crypton 公司开放版权使用权,初音未来的社区创作十分活跃,涌现了大量高质量的社区作品,并在 2009 年举办了世界第一场全息影像的虚拟偶像演唱会。

在中国后来也引入了“洛天依”,创作者通过购置“洛天依”的声源来让洛天依演唱自己喜欢的歌曲。

2. 虚拟人生产:PGC 与 UGC 并进;超写实与低门槛双线发展

虚拟人赛道的兴起并非一时,经过数十年的技术积累,其应用场景在不断拓宽。早在 20 世纪 80 年代,创作者就开始尝试打造具有人格的数字形象。

但由于技术限制,当时的数字人以 2D 手工绘制为主,应用非常有限。

而在 21 世纪初,CG(电脑生成动画)、动作捕捉、人声合成等技术逐步成熟,虚拟人开始快速发展,CG 技术产生的数字虚拟人在电影中普遍运用。

而在最近 5 年,得益于人工智能技术的突破,虚拟人的制作得以简化、可交互性更强,进入了发展的快车道。当前更是在建模的精细度、动作捕捉和 AI 交互不断提升,虚拟人以达到写实级逼真程度,且具备情感表达和沟通交流的能力。

虚拟人的制作不断精细化的同时,制作门槛也在不断降低。

在技术革命的推波助澜之下,虚拟人在机器学习、深度学习、计算机视觉等技术加持下,于面部形象、动作展示、声音识别与合成等维度越来越呈现精细化态势,体现其未来高精度的特质。

同时,随着 AI 算法的发展以及制作平台的出现,虚拟人的制作门槛也在不断降低。静态展示的虚拟人只需要通过建模和渲染技术,就能够数除堪比真人的超写实图像。

而动态展示需要在建模的基础上,加上动画制作和语音,这往往需要动作捕捉技术。交互型的虚拟人需要人工智能技术对用户反馈进行识别交互。

2.1.虚拟人制作——算力为王,边缘崛起

目前虚拟人设计的主流方式是扫描建模。其可分为静态重建和动态光场重建两类技术,其中静态扫描仍处于主流地位,而高保真动态光场三维重建技术初露锋芒。

未来动态光场重建技术将进一步应用于静态虚拟人的制作,提升虚拟人的光影效果与用户视觉感官,由于技术的易得性,未来动态光场重建技术的使用门槛将逐步降低,达到普及态势。

平台化工具支持低门槛创作高精度虚拟人。

2021 年初 EpicGames 发布了可生成高保真角色形象的工具 MetahumanCreator,基于预先制作的高品质模型,用户可以方便快捷地定制自己的虚拟人模型。该工具的定位是让小团队和个人能够快速、低门槛地生成自己所需的角色,大幅度提升美术效果,节约创作成本。

虚拟人的驱动依靠将人类的动作捕捉迁移至虚拟人模型。

将动作捕捉采集到的动作迁移至虚拟人是目前 3D 虚拟人动作生成的主要方式。动作捕捉技术可按照实现方式的差异性分为光学式、惯性式、基于计算机视觉的动作捕捉方式等。

专业制作中常用光学捕捉和惯性捕捉。

光学捕捉多应用于医疗、运动、电影等专业领域例如,2021 年 10 月国内青瞳视觉携手华为带来全球首个 5G+VR 二次元偶像直播,完美展现了虚拟偶像曼妙的舞姿。

惯性捕捉在影视作品中亦有较多应用,较好地呈现 3D 虚拟偶像形象并与用户进行互动。

未来,随着计算机技术的进一步发展,动作捕捉技术有待取代低效的动作录播技术,成为虚拟人动画制作的主流技术。

而视觉捕捉技术,大大降低了使用门槛。视觉捕捉则多用在消费级市场,可以通过手机自带深感摄像头完成基础的面部与肢体捕捉。

随着虚拟偶像加速吸引年轻群体,低门槛的视觉捕捉方案有望成为 UGC 创作者涌入虚拟偶像赛道的首选。如 Epic 推出的 APPlivelinkface,可以轻松捕捉用户面部动作并推流至制作平台。

渲染技术可分为实时渲染和离线渲染,前者速度快适合游戏或交互式场景,后者算力强大更适合对精细度要求高的场景。实时渲染指图形数据实时计算与输出,其各帧都是针对实际的环境光源、相机位置和材质参数计算出来的图像。

早期的实时渲染技术渲染时间短,计算资源有限,但是随着算法算力提升以及硬件水平的提升,渲染速度、逼真度等都实现了质的飞跃。离线渲染技术图像数据并不是实时计算输出,其渲染时间长,质量高,计算资源丰富。

虚拟人的制作——算力为王、边缘崛起。

时至今日,在面向元宇宙的虚拟人制作时,将更强调边缘侧算力。如前所述,元宇宙强调虚实结合,仅仅通过离线渲染是不够的,而实时渲染对算力提出了极高要求。

市场认为算力大都集中在云端,但实时渲染恰需要在边缘侧解决,大量消耗边缘+终端算力,这种架构与此前传统的通信算力架构有较大区别。

此前 Unity 就与 Verizon 合作开发高速、低延迟的数字解决方案,涵盖从娱乐应用程序到企业工具包,源于独立的引擎厂商无法解决边缘计算的算力问题,通信、IT 基础设施服务商将发挥更大作用。

2.2.虚拟人交互——AI+真人的虚实相融

交互型数字人根据驱动方式的不同可分为 AI 智能驱动型和真人驱动型。真人运作配合动作捕捉,能够使得虚拟人与观众进行实时交互。

而智能驱动型数字人可通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物模型生成相应的语音与动作来使数字人跟用户互动。

虚拟人开发领域正在逐步打开市场空间。

得益于深度学习、机器学习、计算机视觉、自然语言处理等先进计算机技术的发展,虚拟人将逐步融合客服答疑、智能营销等功能,并塑造客户良好的品牌形象,即将成为人机交互产品的价值突破点。

AI 驱动的虚拟人依靠语音识别、自然语言处理、语音合成、语音驱动面部动画等多种技 术。在语音识别领域,国内的科大讯飞、百度、腾讯、阿里均有布局。

自然语言处理环节中的语义理解进展较为缓慢,相较于语音识别难度高了数倍,相对做的好的公司包括谷歌、IBM 等。语音合成目前已经广泛运用,但往往是片段录播,离真正的自主表达还有一定距离。虚拟人在嘴形动作方面业已实现智能合成,其主要是通过建立输入文本到输出音频与输出视觉信息的关联映射实现。

主要设计思路是以采集到的文本到语音或嘴形动画数据进行模型训练,得到一个输入任意文本都可以驱动嘴型动画的模型,然后通过模型智能合成虚拟人嘴形。

3. 商业化的虚拟人的价值何在?

3.1.服务型虚拟人有望快速发展

政策支持,传媒场景将成为服务型虚拟人发展突破点。10 月 22 日,《广播电视和网络视听 " 十四五 " 科技发展规划》指出,推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目,创新节目形态。

传媒场景的服务型虚拟人由此加速尝试:由新华社媒体融合生产技术与系统国家重点实验室与腾讯互娱旗下 NExT Studios 联合打造的虚拟记者小诤,首次亮相于 6 月 17 日神舟十二号载人飞船发射的当天,为观众带来航天采访。

央视新闻引进 AI 技术打造的首位虚拟 AI 手语主播,为中国听障群体带来了冬奥会手语服务。

目前服务型虚拟人的写实程度突破恐怖谷限制,应用场景将迎来发展。“恐怖谷理论”揭示了人类对于人形事物会产生正面情感,直到直到一个特定程度,他们的反应便会突然变得极为排斥。哪怕机器人与人类只有一点点的差别,都会显得非常显眼刺眼,显得非常僵硬恐怖。

随着虚拟人制作技术的提高,超写实精度的虚拟人建模使得虚拟人提供的服务变得更加自然。当技术跨越这种恐怖谷的用户体验限制时,虚拟人与真人从外表无法区分时,应用场景将迎来更大的发展空间。

服务型虚拟人将在多个传统领域带来变革。通过打造特定应用场景的虚拟人,能够大幅度提升用户的业务体验。典型的场景包括影视、金融、文旅、教育、医疗和零售。

3.2. 虚拟偶像市场规模稳步增长

目前虚拟偶像是虚拟人最为成熟的商业化应用,市场规模正在稳步增长。其中,虚拟人以虚拟主播 Vtuber 形式为主,主要原因在于门槛低、变现相对容易和迅速。2016 年虚拟主播“绊爱”在 youtube 上线,逐步开始广泛流传开来。

2020 年 1 月至今年 6 月,哔哩哔哩上的虚拟主播数量增长了将近 7 倍,催化因素主要来源于以下两点:疫情影响:线上娱乐市场整体增长,催生了新的观众市场,增加了需求。

头部虚拟 IP 退出:龙头虚拟偶像团体“hololive”退出。头部 IP 的突然空缺使得粉丝、市场、官方资源等急于寻求新的绑定,给与新的虚拟主播一定的发展机会。

参考 2021 年 11 月哔哩哔哩虚拟主播营收,当月虚拟主播总收入达到了 5466 万元,付费人数达到了 25.5 万人。位居第一位的虚拟主播“珈乐 Carol”创下了单月 214 万元的收入。其中,一场维持 4 小时的生日派对直播创下了单场 189 万的收入。

虚拟偶像并不依赖于超写实的虚拟人制作技术,但高精度的虚拟人制作技术为虚拟偶像带来了新的运营方式。

而随着建模技术的提高,出现 AYAYI、Miquela 这类超写实虚拟偶像,与真人难辨真假,因此在展示方式和商业模式上能够有更多创新,可以担任美妆博主、模特等。而早期的虚拟偶像往往是二次元形象,展示方式为音乐、动画、CG 等方式,这些虚拟偶像的内容表现形式一般为娱乐视频。

4. 元宇宙——赋予虚拟人“灵魂”

4.1. DAO 将赋能社区创作

数字内容的生产和消费离不开社区。著名的“初音未来”是社区运营、自主生成内容机制的典型案例。“初音未来”成立背景始于 2007 年,音乐软件制作公司 CRYPTON 研发了一款 Vocalid 声库,同时配有“初音未来”人物的形象和一定的动作脚本。

在 2007 年 9 月 10 日,就占有了约 30.4%的日本音乐软件市场,是第二位的四倍。社区直接参与创造价值,并进行线上分享和传播,“我支持偶像”变成了“我创作偶像”。有大量的创作者将自己的音乐以“初音未来”的化身展现,但目前面临着创作者流失的困境。

“初音未来”收获了大量不同风格的内容,而作为内容提供者的音乐人也因此获得关注,达到了双赢的境地,形成了一个正向的循环。这也是“初音未来”生命周期如此长的原因之一。

但近几年,随着初音未来的 P 主(创作者)离开,优质内容减少,IP 影响力面临威胁。

最主要的原因是 P 主为社区的创作没有对应的经济报酬,用爱发电难抵柴米油盐。

而依靠 UGC 社区创作的虚拟偶像生态,能够与 DAO 结合产生新的商业模式,使生态参与者共享 IP 成长红利。DAO,即去中心化自治组织,是一种基于区块链技术的数字世界组织形态,它的组织规则由分布式的程序执行,能使参与者的利益一致,并且共同实现组织目标。

DAO 有几大特征:信息透明、通证激励、代码开源、社区自治、参与者拥有对组织的所有权、自由开放。基于代币经济的 DAO 组织能够让创作者、粉丝都享受到 IP 生态发展的收益。

4.2.虚拟化身与数字身份

Web3.0 具有无需信任、去中心化等特点,用户对于自己的数据隐私具有控制权。为了实现 Web3.0,则需要各种技术的加持,包括区块链、人工智能、物联网等,这其中区块链技术又与 Web 3.0 的愿景尤为的契合,这也是区块链被称为“价值互联网”的原因之一。

去中心化数字身份是 Web3.0 的核心特征。

Web3.0 中最重要的是用户对自己身份数据的控制,身份所有者能够在任何他们需要的地方使用其身份数据,而不需依赖特定的身份服务提供商。同时,借助区块链技术,能够保障用户身份的安全性、自主性和可移植性。

例如去中心化域名和 NFT 头像,作为数字身份的象征,掌握在用户手中,可跨项目使用。 而虚拟人作为数字身份的象征,未来能够跨平台认证和使用。

目前推特、Discord、小红书等都在推进对NFT数字藏品的认证功能,保障唯一性的虚拟头像能够在多个平台互通,真正成为数字世界的身份象征。而作为虚拟人的 3D 模型数据,未来也有望在各个项目平台中打通,真正实现元宇宙中的数字身份。

报告总结:虚拟人方兴未艾,布局制作+运营+边缘计算赛道

我们预计未来 5 年内将有越来越丰富的虚拟人涌现,它们将不仅仅是游戏中的 NPC(non-player character),也将进一步在元宇宙中被赋予灵魂,以 NFT 的形态出现并配合 AiGC(AI 产生内容),运营模式也将从专业团队向社区升级。同时,虚拟人对底层算力要求提升,边缘计算(包括计算、通信、存储等)场景日趋丰富。推荐关注虚拟人制作以及 IP 运营,我们梳理了以下标的以供参考,预计未来将有更多公司加入这一阵营:

风险提示

技术创新不及预期:虚拟人的技术发展不及预期。

区块链政策监管风险:目前区块链处于发展初期,全球各国对区块链技术、项目融资和代币的监管都存在一定不确定性,因此行业公司项目发展存在不确定性。

区块链基础设施开发不达预期。

区块链是解决供应链金融和数字身份中核心技术,目前区块链基础设施尚不能支撑高性能网络部署,去中心化程度和安全都会对高性能存在一定的牵制,区块链基础设施存在开发不达预期的风险。

24快报
JSON抓取失败