“虚拟人”是什么?有人认为它们是数字世界中真实存在的“人”,有人认为它们只是有形象的AI,还有人认为虚拟人只是真人的角色扮演。其实,“虚拟人”并非新生事物,在亚文化圈,虚拟偶像、虚拟主播早已风靡已久,但在近两年,伴随“元宇宙”概念兴起、新一代信息技术成熟以及Z世代群体逐渐成长,虚拟人行业步入快速发展期。
近期,潘乱和风鱼动漫创始人兼CEO徐久峰、网易新闻虚拟人Eassy运营负责人丁广胜、快手Y-tech技术专家施侃乐一起,在直播中聊了聊「虚拟人那些事」。以下为文字要点摘录。
Point-要点摘录:
1. 数字人跟虚拟人非常不同:数字人核心词是在数字,通过数字手段实现人。虚拟人核心词在于人,在于如何把真人灵魂投射到虚拟世界里面去。
2. 直播场景中,与观众的情感链接是虚拟主播的最大卖点,其背后的中之人以及运营团队起到了关键作用。辅以模型的设计感做加持,做IP路径也完全发生变化,可以根据直播间用户反馈的调整世界观、人设和未来故事走向,规划未来是否发唱片或演电视剧,更接近艺人经济逻辑。
3. 运营虚拟主播最重要的是“人格”而非世界观,这样能够更好的帮助主播建立与观众的情感链接。在直播间里,虚拟主播把剧情世界观、故事都给到大家,观众在互动过程中可以得到情感的代偿,后续虚拟主播出的内容,也是基于人格魅力而非大的剧情的延伸。
4. 基于人工生成技术的虚拟人和基于三维渲染的虚拟人,体现了两种技术的哲学观,即“到底是解析思路还是综合思路去解决问题。”现在看来,两者不是对立的关系而是综合的关系,未来两者会殊途同归,衍生出新的创建虚拟人的形态。
5. 虚拟人现在还远远没有到泡沫的时候,把动捕问题、成本问题解决以后,家家户户都能开虚拟人直播,那时候一天产生两万个虚拟人的号,才会产生大量泡沫。现在在行业起飞之前初见端倪,我们只能探索新的技术道路,探索新的运营模式。
6. 人的一些细微的哪怕不是表情的变化,都会传达非常大的信息量,现在动捕、面捕技术只是很表层的观察,虚拟人技术链条里面,每个细节都有大量值得深挖的点,这些技术攻关解决后,不仅能帮虚拟人赚上钱,更多能帮我们认识人类自己。
7. 未来还可能有一个范式革命,技术可以做到模仿人的知觉,不止是理性的层面,包括人性的缺点,非理性存在的误差,都有可能包含在里面。
8. 虚拟人卷到后面还是卷内容,技术的话,肯定慢慢地会越来越成熟,后续应该会回归重运营和重内容的逻辑。
1. 虚拟人的创作初心
Q1:为什么要做虚拟人?
潘乱:先问侃乐,快手怎么想到做虚拟人?现在虚拟人在市场上非常火,它是用户的需求,还是说真人主播太卷了,卷到大众都已经审美疲劳了?
施侃乐:在人群中有很多有趣的灵魂,他可能有各种各样新奇的想法和故事可以分享给大家,但苦于天生的颜值,不敢面向每一个观众。快手有非常优秀的美颜技术帮助这些主播,我们也不能止步于通过美颜技术美化真人,而是要给新的用户一个机会,把外表“换掉”做虚拟化主播。我们的初衷是希望提供一些工具来释放更多有趣的灵魂,让有趣的灵魂在平台上为整个网络带来更多的快乐。做的过程中发现,虚拟人可以带给我们更多有意思、新奇的体验,这也是推动我们继续做下去的动力,总体上来讲我们希望新的技术落地,带给网络不一样的新奇体验,这是我们所有人做虚拟人的初衷。
潘乱:供给端让长得不好看的人,可以用更好看的皮囊开播,减轻开播压力;需求端我们发现,有些人可能就是更喜欢虚拟的纸片人。再问一下徐久峰,风鱼动漫2018年探索僵小鱼的虚拟直播,现在做狐璃璃有什么样的变化?难道不是僵小鱼粉丝更多,IP积累更厚吗,为什么转向开始推狐璃璃呢?
徐久峰:我们布局虚拟人的初衷,是让受欢迎的IP跟粉丝产生互动。我们之前连麦跟粉丝聊了一下,粉丝问得最多的是,“我想跟小鱼聊聊天。”粉丝想跟虚拟形象产生互动,原来的技术、硬件还没有达到水平,现在综合技术已经起来了,这件事可以做。2018年的时候我们也有做虚拟主播,体验和表现效果跟现在效果会差很多。为什么狐璃璃可以先起来呢?狐璃璃是新人,新人在直播间里能立住脚的情况下,好的IP可以做非常好的阐释。狐璃璃也在同一个世界观里面,后续动漫、剧情里面的人物都会虚拟化。后续针对虚拟人会做一些内容的铺垫、故事的延展,让他做的扎实一些,不单单是表演,还带着人格、故事继续走更长的路。
潘乱:你说大家最想跟僵小鱼聊聊天,说明(虚拟人)已经进入跟人的情感打交道的类别里面去了,更像一个情感消费方面的需求。可能僵小鱼、狐璃璃给了他虚幻的世界观,用户对于虚拟人产生人的情感和链接。
徐久峰:是的,这个跟真人很像,我们看影视剧想跟喜欢的爱豆线下连线,聊聊最近的动态。原来动漫很难做到这一块,因为他不是真人,做完以后明天要发新片,做一个片花出来告诉大家。按电影的做法,我发新片之前会有粉丝见面会,原来我们用虚拟人是做不了这个事情的,现在很容易解决这个,由技术解决了。
Q2:虚拟人有哪些类型?
潘乱:现在虚拟人好像都偏日漫风格,更像真人的美漫、国漫风格没有很大规模推展开,你怎么想到在科技垂类搞一个虚拟人?以及为什么把你们家的虚拟人设计得更像真人?
丁广胜:我们策划之初调研世面上虚拟人的定位,在时尚、美妆、娱乐、快销等领域的确实非常多,而且女性居多,所以这里面涉及到差异化:首先我们设定成男性还主打科技领域,这有两点考虑,一个是在整个科技领域,广告营销对于虚拟人的需求还是比较旺盛的;另外本身我的主要工作是在网易新闻科技频道,我们运营起来更加得心应手。
为什么要设计得更逼真呢?这个虚拟人和客服类还不太一样,我们也是走偶像路线,我们还是觉得更真实的形象,能更加直观也更帅气地呈现在粉丝群体用户面前。
潘乱:我还想问一下侃乐,快手平台的虚拟人有哪些细分类型和代表案例呢?
施侃乐:虚拟形象在快手平台,其实也就是去年年底、今年年初才开始大幅度地增加,我们最近这段时间做了很多投入和支持。比如二次元的同事就在近期推出了“V-Star虚拟人计划”,狐璃璃、机灵小熊猫等,都是在这个计划里跑出来的非常有趣的虚拟主播。我们自己也有张凤琴,还有快手的官方账号“关小芳”这样的虚拟主播。事实上虚拟形象在快手平台,包括其他平台都是非常新生的事物,很难像传统短视频一样分成很多垂类。快手站在平台角度肯定非常包容,非常希望引入更多虚拟形象,我们也会帮助到所有虚拟人的运营账号成长起来,这是我们的初心。
Q3:虚拟人的具体定义?
徐久峰:我们可以一个叫虚拟人,一个叫数字人,AI驱动、数字化驱动的叫数字人。我简单粗暴一点归类,解决应用层和功能层可以叫数字人,他是从AI走的这套路径。解决娱乐化、内容化和情感化的叫虚拟人,他是有故事或者有人驱动,有人格魅力的。
施侃乐:久峰老师有一点平行世界的观点。
徐久峰:虚拟数字化出来的东西,两条路线不太一样,一个走应用层,一个走娱乐消费层的,会变成这样。
施侃乐:数字人跟虚拟人有非常大的不同,数字人核心词是在数字,通过数字手段实现人。虚拟人核心词在于人,在虚拟世界里面的灵魂,如何把真人灵魂投射到虚拟世界里面去,核心词不在虚拟,而是在于人。数字人是一个对人的实现手段的描述,虚拟人在于描述了虚拟世界里面人的主体,最近我们弄一个标准,行业标准写的数字虚拟人,这个名字也很有道理,用数字形式实现的虚拟世界的。
2. 虚拟人的运营方法论
Q1:虚拟人如何运营?
潘乱:快手一直强调真实,发现真实世界的美好,你们的虚拟人也是面向商务,那虚拟人在这样的世界里是怎样的生存情况呢?
施侃乐:整个虚拟人往接地气方向发展的,首先是普适性,技术的门槛和成本都在不断降低,不管是小的内容创作者还是供应商公司都可以做自己的虚拟人。另外从发展的情况来看,虚拟人也适合更多人群交互互动,不管表演还是带货,这也是接地气的一部分。
潘乱:狐璃璃为什么选择快手作为直播的主阵地,而不是动画网站?相比较在其他平台运营虚拟主播,会有什么不同吗?
徐久峰:我觉得数字人分两个方式,一个AI驱动,一个人工驱动,AI驱动越写实越好,它的应用有可能在银行或者客服。但在娱乐化方向,快手平台的直播本身带有很强的娱乐属性,直播生态非常成熟了,它可以做得很好。同时,快手的用户对于二次元内容仍是充满好奇心的,前期可以形成很好的沟通。还有一点很重要,就是平台的系统化支持,我们通过参加快手二次元的“V-Star虚拟人计划”,得到了平台在数据和运营方面的诸多支持,这正是我们作为内容制作公司所欠缺的。这些扶持政策帮助我们了解快手的用户画像,同时还让狐璃璃能够与平台内属性相似的大主播连麦互动,快速融入到快手的直播节奏中。
现在做IP路径完全发生变化,更像爱豆,你可以根据用户反馈做世界观、人设和未来故事走向的调整,规划未来是不是要发唱片或者演电视剧,更向艺人经济逻辑上走。
潘乱:用二次元相对简单的线条可以达成以假乱真产生情感链接的方式,感觉动漫产业就这么来的,可以用相对简单、更高ROI方式建立情感链接。
施侃乐:作为平台方做IP最主要的初衷其实是验证技术的流程,我们不是为了去跟快手平台上的IP提供方去争夺蛋糕,我们更愿意通过IP实验,找到哪些是虚拟人制作过程中的痛点痒点,通过切身体会成长过程、运营过程,了解中间有哪些核心技术点要攻破,我们希望通过自己实践解决这些问题。快手作为平台想做的事是什么呢,我们把研发出来的所有技术打包给用户,让我们用户用这样工具呈现出更好的IP。刚才好多老师提到虚拟人成败与否还是在IP本身,IP绝不是几个技术同事在一起就能做起来的,更多需要引入各种各样创意、艺术创作等等。这个肯定需要创作者生态,需要大众参与完成的。我们解决的问题跟做IP的企业非常不一样。我们希望把所有创造虚拟人形象链路中遇到的重大的问题,全部能够一体化解决,为用户提供好的平台工具,激发用户创造力,这是我们的初衷。
潘乱:相当于给大家打个样,知道流程系统里面有哪些是快手帮别人做得更好的,你提供平台,提供建模能力,美术还得靠大家自己。
潘乱:想问一下徐久峰:虚拟人和传统动漫IP的运营逻辑有哪些差别,为什么像僵小鱼出来的时候靠短视频起来的,到狐璃璃的时候上来就选择直播这种运营路线?
徐久峰:打个比方,直播间里面让六小龄童来播,他会跳不开这个世界观,换黄渤和沈腾人格魅力非常强的这种,他的世界观可以在直播间慢慢铺起来,用户是会跟着你成长的,而不是在剧情里面跟你聊天,所以六小龄童或者赵雅芝可能都不太适合。我们给狐璃璃做任务设定的时候很简单,她就是僵小鱼的小师妹,一个魔法放不清楚偶尔都不知道自己变成什么样的魔法师,她就是这样的设定,人物是由直播间里的用户完善的,现在还有几个标签,爱哭、魔法放不清楚,有了这个东西以后IP运营逻辑出来了,因为你有用户数据,你的运营逻辑跟着用户成长。为什么爱豆或者练习生会有这么大的魅力在,有这么多忠实用户在那边,用户是跟着他起来的,后面会做排片,演绎路线很多。
潘乱:你在直播间里面把剧情世界观、故事都给到大家,观众在互动过程中可以得到情感的代偿了。
徐久峰:就可以完善,后续也会出内容,但是这个内容是从人格魅力出的内容,而不是大的剧情出来的东西。
潘乱:狐璃璃为什么在快手60天涨粉两百万?
徐久峰:重人格、轻世界观。
潘乱:我感觉那些作品不管影视作品还是游戏,最重要的都是剧情、故事和世界观呢?
徐久峰:那是做故事,捧剧里的人而不是真正的人。我们运营的是人而不是故事。
潘乱:这个问题问给广胜呢,你们网易运营的是什么?
丁广胜:我们是纯内容团队做虚拟人,定位是市场上稍微稀缺的男性虚拟人而且是科技博主的定位,我们有很多属性,00后、天蝎座,另外很重要一点、资源上的差异化,我们背靠网易新闻这样一个平台,可以说是比较有能力的策划和传播的角度。打个比方,昨天凌晨iphone14发布了,我们作为媒体平台可以拿到测试机,有可能就是首位评测iphone114的虚拟人。
潘乱:凤琴跟周杰伦新歌发生合拍,未来随着侃乐你们这些工程师,更多地帮助他学习,凤琴最后会变成什么样的爱豆呢,会在什么样的技能上发生突破呢?
施侃乐:凤琴的定位是非常优秀的虚拟歌手。我小时候看过一个动画片叫太空堡垒,后来才知道背后还有一个动画片叫超时空要塞,是一个日本长大的中国人角色通过唱歌打退了外星人。我第一次那么小的时候感受到一个虚拟的歌手,在一个屏幕上能够唱出这么感人的歌是非常了不起的事情。我们对凤琴定位成为优秀的虚拟歌手不是要打败外星人,而是要给所有的普通人幸福感,这个其实是我们最希望做的一件事情。机器合成人的语音非常难,几年前的时候难以合成非常流畅的语音,现在通过声音合成软件,可以合成人的简单对话了,甚至有时候短视频里面很多语音也是机器自动合成的,我们仍然能听出来中间细微的差别,跟人本身表现情感还有很大的路要走。
如果我拿一首张凤琴唱的歌给普通人听,其实我们做过大量的实验,听不出来的,张凤琴唱的歌像准专业的歌手唱的歌,这实现了技术上非常了不起的突破,张凤琴现在歌声能突破图灵测试的。既然张凤琴有这么强的表现力,我们希望张凤琴能吸引别人的情感。
Q2:虚拟人有哪些受众?
潘乱:今天的这些3A游戏和当年游戏已经完全不可同日而语了,感觉随着GPU提升,距离以假乱真的临界点越来越近了。说到受众,狐璃璃有两百多万粉丝,他们为什么会喜欢狐璃璃?
徐久峰:受众里年轻人偏多,综艺感来看的话,虚拟主播要优于真人直播,刮风下雨换个场景,或者一些特效,直播间里面可以很好的触发。直播间这个逻辑,从我的角度来讲是游戏,一个有综艺感的游戏。你就是在驱动主播做游戏。PK也是一样,有点像部落联盟的关系,部落打联盟,联盟是不是要帮助一下它,逻辑就是游戏,虚拟直播其实是可以很好解决游戏性的事情。
潘乱:你一个搞虚拟偶像的说你干的是游戏,米哈游说他们干的不是游戏是虚拟偶像计划,给用户提供陪伴感。
徐久峰:国内一直在讲这个事情,游戏动漫不分家的。一方面是都提供想象空间,现实生活中很多达不到的东西可以在虚拟世界实现,对你喜欢的东西有一定的操作行为,你会更喜欢这个角色。
潘乱:一方面提供陪伴感,另外有一些用户有社恐或者社交障碍,动漫游戏给他们提供了幻想,可以进行一些脑补,二次元就是对现实世界的一个虚拟化。
Q3:和真人主播相比,有哪些优势?
潘乱:跟真人主播相比有哪些吸引用户的点,当你们做了虚拟人技术之后,把更多虚拟人引入直播生态之后,对快直播生态带来什么样的变化?
徐久峰:真人主播也可以来虚拟直播间里面聊天,我们有主持人,这是会打出差异化的。
施侃乐:快手希望多样化的内容出现在平台,虚拟人也是非常有意思的艺术呈现形式,它们有自己的特点。快手直播引入虚拟形象的互动方式,比如用户选择自己漂亮的虚拟形象跟主播有一些互动,未来可以给主播虚拟形象换衣服,有各种各样新的玩法,核心没有变,还是灵魂与灵魂的交互,我们为交互提供更多的载体,提供更多好玩的互动形式,现在只能想到比较浅层次的应用,换换场景、换换衣服,未来随着网友或者很多创业公司的深挖,在虚拟形象这件事情上创造出很多像直播一样新玩法,这是更乐见的。
Q4:虚拟主播如何提升人气和关注度?
徐久峰:我觉得还是个性化,短视频时代讲究黄金三秒,直播的时候连黄金三秒都没有,什么时间点刷进来都有可能。这张脸非常重要,虚拟人设计非常重要,我举个例子,头号玩家每个角色都是有设计感的,大家不会为了没有设计感的东西买单的,我们说帅哥、美女,除非特别帅,帅到他心里面去了他停留一下。另外一个看个性,我们做了一个账号的测试叫孤俑者,我播了两次,两个多小时,将近四万多粉丝,大家关注一个点:一个兵马俑为什么腿会这么短?有这个点就够了,就可以吸引到他。直播的时候更考验停留时间,真的连黄金三秒都没有。直播效果也是跟开盲盒一样,今天PK好玩,明天PK不好玩,外观形象非常重要,(要让观众)一眼看起来觉得第一个是好奇、奇怪,就是这个原因。
施侃乐:直播间跟粉丝互动的特效和道具,以及能实现的功能是非常重要的,而且功能要迭代,比如换件衣服是最简单的逻辑,是不是可以跳到水里面游泳又超出他们的预期了,是不是还可以飞,飞起来是不是还可以打一套武术,慢慢有综艺的东西加进去,这才能让观众在直播间里停留,因为他好奇下一步干嘛。我们真人主播的时候,(观众)好奇最多的点是看PK到谁,如果是虚拟主播的话,是不是可以让场景突然间打雷?所有东西都是未知的,观众才会停留在这边,今天觉得好玩,明天是不是有新的东西玩?后天是不是又有新的东西玩?持续把功能迭代完了以后,用户可以很好地承接下来。
潘乱:你刚才说的给大家更多的期待,其实就像短视频很早期的时候,和尚过浮桥,大家好奇最后有没有掉到水里面去,就会把视频看完,这就触发到短视频算法里面最重要的指标,叫完播率,然后推荐给更多人。
施侃乐:我们以前是站在生产方的角度揣测平台算法,后来我们想明白了,不用关心平台算法是什么,只需要用心把品质做好。我们耗费多少心力设计这个内容,就能获得多大成绩,内容好才是真正解决问题的最主要的初衷,我们更多把所有的注意力集中在如何让生产的视频或者做的直播更有卖点,我们更愿意看到用户通过视频获取知识或享受快乐,我相信所有短视频平台都有一个初衷,希望把真正好的内容呈现给所有用户。
用户其实也越来越聪明了,他更容易对知识性含量特别多的视频有好的甄别。从我的角度,虚拟人还处于快速发展时期,各种各样的形态都可能出现,我们现在虚拟人只要整活整的好,只要能够智商碾压我,只要互动特别开心,我们就愿意看。现在我们很多虚拟人主播就是所谓的智商碾压型,只要反应得足够快,就能从直播过程中享受快乐,聪明的人始终是很多的,能说会道的人始终也是很多的。想往下一步走,有特色、有特长的虚拟主播才能够在大浪淘沙中存活下来。
现在这个号,“神奇少女张凤琴”,我们认为把歌唱好是有特色的点。后来会不会有虚拟的主播编笑话编得特别开心,或者有一个主播,每天都换不同的华丽衣服?再比如说还有一个主播就是模仿各种动物做得特别好呢?肯定会有,虚拟人还是会往有特色角度发展,细分领域还是会打开,为用户提供更多的价值和信息量。
潘乱:我听懂了,内容上也是需要长期主力的,你若盛开清风自来。说到底各行各业都是这样,都是苦练基本功,说道底就是一句话,苦练基本功。
Q5:如何通过直播打造虚拟偶像?
潘乱:我好奇一个点,怎样通过直播来把虚拟偶像给它打造出来,是用打造明星的思路,还是走网红路线的思路?
徐久峰:按明星思路,每场直播更像一场综艺,这次实现什么功能,什么功能可以产生互动,这次编了什么游戏,都有台本,我们在策划一步一步向综艺靠拢,一旦用户基数和采样够大,后续内容和其他东西也会马上跟上来。
丁广胜:我们觉得也是明星的思路,网红通过某一个事件突然爆火,明星我认为是通过长期的努力和作品的积淀,从我们角度来看,我们作为客户博主也是希望在未来一段时间打造一系列的节目,有视频的、有图片的,也有文字的,打造成明星,打造成偶像。
Q6:为什么一个虚拟主播对比真人
有这样提升效果?
施侃乐:我们现在很难期待虚拟人的卖货能够在单位时间和单位成本下做得比真人更出色,虚拟人有一个先天优势,虚拟人可以24小时卖的,衡量单位时间的话虚拟人仍然很难完全替代真人或者做得比真人好的,毕竟真人有更强的互动,虚拟人就在于时间长,24小时值守,加起来GMV就会超过真人,这是有可能的。我们做无人职守虚拟人的时候也是希望把这个作为工具,让普通的直播带货的号也能用起来,这也是我们的初衷。
潘乱:一个虚拟人可以穿梭在不同的直播间,是否有一种可能性,譬如说现在有几万人同时看直播间,他能够识别我的用户画像,生产不同的直播画面?
施侃乐:我们未来理想就是这样,我们希望为每个人打造他所喜欢的凤琴。技术上完全可能实现的,具体怎么运营,这需要我们琢磨出更多业务方法。
Q7:虚拟人如何进行商业化变现?
徐久峰:我们做内容耕耘了很久,从做IP逻辑聊这个事情,做完内容往外发,有人看,看了火,火了运营找品牌方,这是非常长的路径。比如说我们在短视频接广告,广告费50万,我们制作成本会占一半,我们盈利点只有25万,真人接一条广告25万,利润达到80%、90%。现在有了新的东西,直播间里面打赏促成你把团队运营下去,直播间的打赏价值把前期制作成本、内容开发成本都可以覆盖掉。
潘乱:先在直播间验证是不是爱豆、能不能成为IP。
徐久峰:粉丝量是一个维度,买单又是另外一个维度,喜欢的人都集合在一个地方的时候,很容易测出发展方向。
潘乱:你们会怎么评估成功与否?
丁广胜:比如说中国虚拟人偶像排行榜连续两个月,7、8月份达到前十,再比如它是科技博主,在行业大会作为新推官露出,整个运营思路有一点类似科技的KOL,他先俘获C端用户粉丝和消费者,再在B端拿到好的价值,有广告和营销市场。经过两个月的运营,某一个国家旅游局也在联系我们说可以去他们国家拍一个vlog,通过内容订制的形式进行连线。
潘乱:有一个数据,2021年中国虚拟人带动整个产业规模都能达到上千亿,我非常好奇,虚拟数字人前景跟商业价值到底有可能在方面体现呢?
丁广胜:一个虚拟人能否成功,很明显还是看能否持续运营。我们为什么记得初音未来,就是强大的运营能力,运营之上有非常有想象力的前景。千亿级这个不好说,在未来两三年肯定是大的爆发,这是可预见的。
潘乱:你们判断的话,虚拟人这个赛道会越来越拥挤吗?在未来的话,可能碰到的最大的挑战是什么呢?
徐久峰:卷到后面还是卷内容,技术的话,肯定慢慢地会越来越成熟,后续的话肯定重运营和重内容的逻辑,我的认知是这样的。
丁广胜:都解决之后,拼的是内容创意,谁厉害,谁曝光更多,谁更有意思,谁的故事线更完整,就能展露头角。
3. 虚拟人与中之人的关系
Q1:粉丝怎么看虚拟偶像和皮下之人关系?
徐久峰:这两个是捆绑式的,大家一直在说的“虚拟人不怕人走”,这是伪命题,人的话为什么会有魅力呢,因为他有缺点,大家喜欢优点和缺点之间的东西,太完美的人设没人喜欢,往往主角都没人喜欢,反倒反派大家喜欢。他本身是现实生活中的人,他有缺点的,他这个缺点在皮囊下很多人可以包容,一旦发生变化会受到影响,剧情上的规划就是“渡劫”去了。
潘乱:就像漫威一样有一代二代。
徐久峰:是的,他人物还是这个人物,故事还是这个故事,只是驱动换掉了,有可能换了一个效果更好,也有可能换了以后效果更差,对做内容这块不会受影响。
潘乱:也就是有一条中之人变更的策略防范,可以让它迭代“渡劫”,有一个新的出来。这个问题再问一下广胜,你们网易虚拟人,不管参加苹果的发布会还是去做新手机的评测,感觉都有真人在里面,男性虚拟人的科技主播,跟男性真人的科技主播同样做科技内容,他区别点在哪里呢,或者优势在哪?
丁广胜:帅,这是毋庸置疑的,非常重要的一个点,也是希望做超写实虚拟人吸引粉丝的一点。我们这些内容确实不是AI生成的,背后有一个专业的编辑团队,我们每周三有科技评论,这个科技评论我们会选择比较有调性的,前段时间LV推出智能手表,这个是科技领域比较有调性的事,他会挑选这些调性的东西去进行评论。
另外,我们会选择大事件,比如iphone14,比如前段时间中国航天的发射,我们也作为一个天文爱好者和航天文创进行互动,以大片和中之人拍摄海报的形式。中之人对我们来讲更多的是声替不是脑替,脑替是这些长期在科技行业中的专业编辑老师。不管拍摄也好,还是在规划当中的直播,直播的话我们也会有新的脑替,更多是编导策划,他进行演绎。
Q2:选中之人会考虑什么样的因素?
丁广胜:我们先是策划虚拟人原画,依照这些标准找虚拟人的中之人,我们找DE 是男模特,他的身材和头围是完全匹配的,这样的话我们目前海报拍摄比较多的情况下,其实是比较专业的,包括摆一些pose。文字性输出都是背后专业团队。我们也会考虑在将来直播中有脑替,作为科技博主做一些节目、策划,我们采访嫦娥之父欧阳志远院士,这个需要脑替了,更多的是对内容、科技博主的东西去进行工作。
潘乱:狐璃璃为什么选一个编剧?直播中会对表演有什么要求吗?
徐久峰:每家公司基因不一样,我们是内容为主的,谁最懂内容,谁最懂人,编剧是最懂的,他去做这个事情是非常合适的,换一个人要把原来构想的东西灌输给他,让他演让他学习,而编剧来当中之人,本身具备编和演的能力,做的事情比较顺畅一些。
Q3:虚拟人行业是否形成中之人培养体系?
徐久峰:还没有成体系,这个行业招人都不好招。口才好的,自己能播的,跟形象关联性也不大,虚拟人的优势是可以降低找中之人标准,同类型里面找,播得好的做真人直播的时候一定不太差,再差一点套个头套。中之人需要他对角色有一定自己的理解,角色后面往什么地方走,这是找中之人时候的首要条件。这个虚拟人不仅仅在直播界里面成立,只不过直播界最容易测试,这个内容好不好,后面内容往哪个方向走,讲白了有打赏,但是他起于直播不会终于直播,他对角色的理解和后续发展是对中之人最大的考验,我们考核标准应该在这个位置。
丁广胜:这个行业没有成体系,我们更多还是希望弱化,这样可以说没有必须绑定哪一个人身上,这里面涉及到一个问题,虚拟人立住人设之后,声音不能变来变去,虽然是男的,男生和男生之间音色也是不同的,我们做的是保持一个人音色,相当于声优和声替不是一个人,我们是这样做的。
4. 虚拟人技术发展现状
Q1:在超写实虚拟人这一类型上
有哪些技术突破点?
施侃乐:一个人像人又不是真人的时候会给人特别奇怪的体验,我们叫恐怖谷效应。经过这么多年技术发展,特别实时技术和人工智能大的算力引入,我们正在克服恐怖谷的效应,可能不出一年、两年时间,我们再看到超写实虚拟人时,很难发现它是个虚拟人,说不定下次连麦的时候,你看到我的形象已经是假的形象了,这个速度很快。狐璃璃在这件事情上处理得特别好,它是超级可爱的形象,让人觉得既不是真人但是非常可爱,既有动漫感觉又有真人属性。现在可以通过艺术设计手段规避正面硬刚的真实感问题,随着技术发展不需要一年两年时间,就能越过技术转折点,达到这个技术转折点以后,我相信就会实现真人的美感,这将是我们期待的目标。现在影视、电影打了个样,我们要做的就是把电影技术的成本降低到现在的一百分之一、一万分之一,让普通人用起来,这是虚拟人工作者最重要的使命。
Q2:AI驱动虚拟人发展到了什么地步?
施侃乐:有人会怕累要睡觉,机器不怕累只要有电就行,一个非常直接的结果就是我们期待用机器去模仿人类,替代人去做一些事情,这种情况工业界已经实现了,我们造汽车都用机器人造了。我们有充分的理由去想象在可能五年后、十年后,人工智能技术发展使得我们确实让计算机可以替代人去做一些事情了,比如说机器人代替人类卖货,我半夜12点到某电商平台的时候,我真想去买东西,我得问具体情况是什么,而且我的问题很随机,可能探讨一下这东西怎么用,不是说明书上的呈现内容,这就需要背后人工智能应答。还有普通市民服务,现在出生人口越来越少,是不是意味着需要很多机器人代替人做很多事情,这时候有虚拟人接待我的话能减少很多问题,这样场景能想到非常非常多。
前一个阶段,机器人帮助人脱离了大量的繁重体力劳动和脑力劳动,现在我们期待机器人帮助人提供一些服务,帮助人做一些简单的重复性工作。从卖货或者平台角度去看,直播领域能不能让虚拟人替我们卖货,能不能让虚拟人替我们唱歌,或者能不能解答一些问题。快手有巨大的知识库,能不能跟虚拟人说介绍一下黄瓜种子种下去以后什么时候浇水,什么时候施肥就能长出一根环保的黄瓜出来?我想减肥,我能不能吃某种食物?这么多问题通过虚拟人的方式能够得到解决的话,将是超级大的新的应用市场。
Q3:
现在虚拟人制作方面会涉及到哪些技术,
是怎么样的实现方式?
施侃乐:我认为中间特别难的有三个部分,第一个部分渲染,这是大家都有体感的东西,第二个是动作,动作决定了是否有吸引力,第三个声音。我们给自己设定“四个三”的目标:看到虚体形象第三秒的时候一定要爱上这个形象,第三分钟的时候要让中之人有照镜子的感觉,第三个小时的时候一定要让中之人持续地玩三个小时,第三个星期的时候要产生营收和回报,不管多还是少要有正向激励,渡过这“四个三”的坎儿,虚拟人才算是走上正道了。
为了解决这个事情涉及到的技术,第一我要引入能够绘制出漂亮效果的三维引擎,第二动作捕获得要特别好,面部细微表情的呈现很难很难,现在市场上没有非常成熟的面部表情的解决方案,上百万上千万大型设备,那是没问题,但对于普通直播,五十万块钱以下甚至五万块钱以下有没有合适设备用,这是我们亟需解决的问题,我们朝着这个方向做。
第三个问题是如何产生好的声音,声优是不是要更换,声音是不是能维持稳定的输出,声音是不是能够美化,张凤琴是唱歌为主打的号,声音变得更重要了。狐璃璃特别成功,声音起到很大作用,我们希望通过技术手段让声音美化到非常好的要求,这几个都是作为技术人来讲非常重要的点。
潘乱:这个技术偏游戏还是更偏影视特效?
施侃乐:我们用偏游戏的路线。影视是采用人工后期编辑的思路,是很棒的技术路线,但很耗人力,需要很多后期制作,为了未来可以成功地迁移到每一个普通用户,我们更多希望在普通PC机或者手机就能运行起来。这和传统做游戏的思路很像,有限硬件情况下把效果发挥到极致。游戏和影视,这两者未来会有交叉的点,游戏做得越来越好,跟影视效果差不多对齐了,影视做得越来越接地气,跟游戏成本对齐了,我们探寻交叉点在哪里,以及赶紧会合。
潘乱:提到成本的问题,一个做虚拟主播一个做超现实虚拟人,成本结构都是怎样的?
徐久峰:硬件成本是一次性投入,最多的是后面的迭代,比如形象上的升级。从我们角度来讲的话,从画面实现效果是最容易把控的。为什么我说现在动画公司慢慢接触这一块东西呢,原来都掌握在游戏公司或者引擎公司手上做这个事情,很难做中间的交叉。陆陆续续,这个东西硬件、技术使用成本慢慢降低了,从影视角度来讲,换一套渲染工具而已,现在做IP是缩短路径最好的方式。
丁广胜:渲染直播声音是非常重要的,我们整个成本来算也是三大块,一个最初模型的制作,制作成本是一大块。这是一次性投入,中间持续运营,内容运营的成本。第三块传播成本,我们作为媒体内容团队需要持续的曝光,从技术角度讲,我们最开始用的玛雅建模,各位老师也清楚,我们超写实的虚拟人,我们需要尽量的做得更逼真,用超写实玛雅的技术,但是弊端也很明显,效率没有那么高,周期包括成本统称为效率,效率没那么高。
刚才我听侃乐老师讲的,也想交流一个小问题,您提到直播用的动作捕捉设备还有单个摄像头,这两个哪个好您认为。
施侃乐:我们在混合使用,我们把摄像头获取的数据通过自己的算法去搞,摄像头获得光学数据,位置更精准,同时我们把惯性捕捉的小芯片带在身上,出来的拓扑或者整个结构更精确一点,混合在一起获得更好的结果。而且补充您说的这句话,面捕、动捕是特别贵的一件事,我们一直想做一件事,把这个成本降到五百块钱以下,让普通的人用买一件普通衣服的成本,就能买一身动捕服解决问题。这需要惯性捕捉和光学捕捉,网友可以有摄像头联合使用,我们也在跟其他公司合作通过人工智能方式,利用大量数据的学习,把这件事变成可能。这件事可能的话,我们第一个开源出来,让业界所有人都能用动捕服,把东西集成到衣服里面,这样每个人就能开直播了,这样才能把生态做起来,才有更多用户穿着自己衣服跟各家虚拟人一起互动起来,这才到达所谓元宇宙时代。这还需要很多技术问题解决,我们正在努力的推动。
潘乱:基于人工生成技术的虚拟人,会不会逐步替代基于三维渲染的虚拟人?
施侃乐:计算机里面一个模型就是点线面构成的,细分到最小的点线面画出来,研究光是怎么传播的,渲染出来。AI技术生成更多倾向于东方哲学,不管你人是怎么构成的,你给我大量数据,一训练最后出来跟真人一样,具体过程怎么做的?我不用关心,我就要你个好的结果。如果说对立的话,其实是两种技术的哲学观的对立,到底是解析思路还是综合思路去解决这个问题。从现在看起来两者都在做,越来越发现两者慢慢不是对立的关系而是综合的关系。我们内部有一个组叫图形AI组,这两个融在一起了,一方面用解析思路,解决图形构成本原的问题,另外用人工智能方式解决计算和混合问题,未来两者会殊途同归,衍生出新的创建虚拟人的形态出来,比如纹理、皮肤很多渲染过程可能局部上是用人工智能生成的,但整个自由度由三维模型保证。这样我们生成效果的真实性得到保证,渲染出来跟照片是一样的,同时自由度得到保证,每个手指关节可以动的,我们期待可能未来会有新的演进方向,分析和综合两个思路合并在一起,往前走一条跟传统不一样的路,这也是我们正在探索的路线。
5. 虚拟人的产业前景与未来变革
Q1:现在虚拟人行当泡沫和乱象都有那些?
徐久峰:我认为是展现的入口。刚才不管聊内容向的还是AI算法,核心在互动,我们可以实时交互。这个概念在之前不太完善,但实时交互在应用层可以做得非常广,比如智能语音、音响、电视,都会有这样的需求。原来的实时交互需求里,没有把虚拟人的角色属性考虑进去,声音只是一个数字,虽然人也是数字化出来的、从感官来讲更贴近人,应该是下一代各个终端的入口。这里面的泡沫是什么呢,大家把概念搞混淆了,不管做影视公司还是动画游戏的,只要有三维能力公司做出来东西都叫虚拟人或者都叫数字人,这个东西交互很重要,是跟原来没有“元宇宙”概念之前最大的区别。这是我的理解。
丁广胜:元宇宙非常火的时候,大家都在寻找元宇宙里面能落下来的场景,最后发现虚拟人。虚拟人并不是元宇宙概念之后出现的,AI虚拟人很久就有了,这波元宇宙浪潮助推带来热度,泡沫也太多了。接下来一段时间会进入淘汰。
潘乱:大家觉得可以用新技术做新IP,跟元宇宙更宏大的故事挂在一起,从具体技术变成非常宏观的东西,吸引所有人的关注进来,这个泡沫也是好事,这个行当有泡沫才能做大。
施侃乐:我想补充一个反面观点,我觉得现在泡沫还不够多,现在还远远没有到泡沫的时候。现在优秀的高质量的虚拟人的号,在短视频平台上或者其他平台的总体数量还是微乎其微,这样小的量说它有泡沫,我只能说这泡沫太小了。虚拟人还没有到大的转折点,把动捕问题、成本问题解决以后,家家户户都能开虚拟人还解决造型问题,那时候一天产生两万个虚拟人的号,这时候才会产生大量泡沫。
现在在行业起飞之前初见端倪,从技术人观点看的话,我们只能探索新的技术道路,探索新的运营模式。我们沉浸下来的知识,为大量后面的创业人指明道路,为后面摸到一条正确的虚拟人产生营收的道路。我觉得他们就是英雄,走在时代最前列的英雄,敢于尝试新的技术,探索技术能不能赚到钱,能不能产生利益,他们才是英雄,这不叫泡沫。
Q2:现在虚拟人的商业瓶颈卡在什么地方?
施侃乐:技术角度看的话,最揪心的还是有大量好的有趣的灵魂,有大量出色的设计师,苦于技术实现的成本,我们没有把这一部分创造力激发出来。在这个市场上能够构造出像狐璃璃这样的优秀号的人有很多,为什么只有狐璃璃这么成功,因为他们有设备,有平台,有完整的生产链条和体系。作为技术人我们最痛心部分是什么呢,技术让每个人能用上这些东西的路线还是有点远,如果我们动捕服五百块钱一套、快手面捕产品全部免费,到这样阶段的话,剩下就是创意的问题。
所以技术问题,其实才是广大虚拟人创建过程中的刚需问题,也是硬骨头,我们为了解决硬骨头做了大量投入,这些问题如果得到解决,我相信整个市场会被激活,会有更多人创造出很好的形象出来,虚拟人会有更多竞争,那是一种幸福的烦恼,大家在新的平台上PK,比内容,比成本控制,比运营,这将是文化的百花齐放,我们希望通过技术尽早看到这一天到来。
潘乱:我之前跟相关的做虚拟主播从业者聊过,他给我总结说首先可能是卡在硬件的算力上,技术建模本身还有物理引擎也可能还需要去提升,一个小团队自己来干实在太难了,并没有大家想的那么好。再然后刚才侃乐提到的,动捕技术和设备,一方面是价格不贵的问题,另外一个技术本身成熟度的问题,有可能手机和PC表现力就不够,需要等VR、AR那个时代到来。所以说在你们这边的话,未来往虚拟人技术,你会觉得还有什么演变空间吗?
施侃乐:举一个例子,为什么我们开会都想face to face,人的一些细微的哪怕不是表情的变化,会传达非常大的信息量,现在动捕、面捕这些技术只是很表层的观察,很多面捕就是52个参数解决问题了,这个信息量太小了。之前我们做了一个技术,观察面部微弱红色的变化,猜测这个人的心跳,通过人工智能方法揣测这些细节的变化,帮助我们更多地传达情感。以这个为例子,虚拟人技术链条里面每个细节都有大量值得深挖的点,人类对人类的了解是非常深层次的东西,现在还停留在非常浅的层面上,有很多路要走,也有很多技术攻关要解决,这些技术攻关解决不仅能帮虚拟人赚上钱,更多帮我们认识人类自己,是新的研究领域,我们也在尝试开拓一些对人本身的认知,这个是整个学科层面研究虚拟人更大的方向了。
潘乱:未来还可能有一个范式革命,技术可以做到模仿人的知觉,不止是理性的层面,包括人性的缺点,非理性存在的误差,都有可能混在里面。到那个时间点的话,这个市场才是真正到达有资格说泡沫的时候,在那个技术临界点之前,大家都在前赴后继探索发展,未来的路还有很远。