数字人

风口上的虚拟人:一场游戏一场梦

在虚拟人领域,2014年和2022年是两个世界。

插画 / 卢俊杰

摸索、质疑

在虚拟人领域,2014年和2022年是两个世界。

在2014年之前,类似苹果的Siri语音助手是主流,微软也在做解决问题的助手“小娜”,但很快,他们改变了想法,决定赋予AI性格和情绪,于是在2014年,聊天机器人“小冰”诞生了。当时小冰团队还在微软内部没有拆分出来,现在回想“小冰”诞生的最初,小冰公司CEO李笛说,就像是《格林童话》中的故事:一对兄妹,在皎洁的月光下,撒着面包屑作标记越走越远,因面包屑被小鸟吃掉而迷失在森林中,却意外地发现了藏着宝藏的房屋。

体现在技术上,小冰与当时的主流逻辑不同,当时封闭域是主流,对话被限定在某个范围内。小冰自然语言处理采用“开放域”,即内容不受限,体现在产品上则是“闲聊型”机器人。“行业没人做,也很少有人认同。”李笛回忆那个时刻,还有人专门写了一篇长文《人工智能需要情感吗》来批评。

小冰公司CEO李笛与小冰框架下的虚拟人合影  图/南方人物周刊记者 梁辰

第一代小冰在微信上线不到三天就被封杀,微信认为它涉及模拟用户操作、诱导用户拉群等违规行为——不到三天的时间,小冰被微信用户拉进了超过150万个微信群。直到2015年8月,小冰以微信公众号的形式重新上线。

早期探索者中还包括技术和内容领域的从业者,他们的路径不同,但都经历了漫长的蛰伏期。

2017年9月,苹果发布iPhone X,公布了面部捕捉技术,并开放工具包,促进了虚拟直播概念的兴起。也是在这一年,云舶科技CEO梅嵩从游戏公司蓝港互动离职,开始视频动捕技术创业。2018年,日本虚拟主播公司彩虹社成立,B站虚拟直播频道出现。

市场痛点在于,当时的动作捕捉技术只解决面部控制,身体则不行,而专业动捕设备动辄几十万、上百万,大部分普通人只能选择仅能动脸的“纸片人直播”。梅嵩决定将视频动捕技术落地到虚拟直播领域,让用户仅下载软件,用百元级别的单个普通摄像头,实现实时视频动作捕捉,低门槛拥有一个虚拟人外形。在他看来,虚拟人的普及性尤为重要,即人人皆可虚拟,每个人都拥有自己的数字分身。

但实现并不容易,作为当时唯一一家在做视频实时动捕的公司,他们没有参照物,只能不断试错,且研发周期漫长。当时梅嵩和CTO陈敏自掏腰包创业三年才获得一个初步产品“小K直播姬”,此后他们又经历了一年的研发,最终上线。

2018年,次世文化推出国内第一部真人+动画交互网剧《戏隐江湖》,由此开始虚实交互的探索,并在国内首次推出明星虚拟形象,如迪丽冷巴、韬斯曼。

那时候,少有人关注虚拟人。次世文化CEO陈燕回忆,有投资人当面直接给出了判断:伪命题,不存在价值,市场规模小,作为一个附属产品不值得投资。他走访客户亦是碰壁,“从娱乐、广告到消费等各个当红领域的公司都跟我们say过no。”

“我在内部说要投娱乐科技,大家第一反应是你要投游戏吗?还是动漫?”GGV纪源资本执行董事罗超回忆,2019年,公司内部立项看娱乐科技赛道,虚拟人是这一范畴的重要组成部分,他早期也曾担忧这一领域是否会一直小众下去。

2020年,小冰从微软分拆独立。有投资人曾向李笛提出疑惑,为什么不做“有用”,而是做“有趣”?无厘头、插科打诨看起来并无意义。这也是早期一直围绕在小冰周围的质疑:她有用吗?

热钱涌入后:繁荣与泡沫

行业是突然热起来的。2021年,Roblox上市带来的元宇宙热度,让虚拟人被赋予“元宇宙第一批原住民”的期待。据不完全统计,2021 年全年,国内一级市场虚拟人相关投资约16 笔,融资金额从数百万元人民币到数千万美元不等,新增虚拟人相关企业超6万家。2022 年开年第一个月,虚拟人领域近百起融资累计超4亿元。速途元宇宙研究院预计,至2025年,国内虚拟人相关企业数量将突破40万家。

2022年7月28日,北京2022全球数字经济大会,工作人员在元宇宙体验馆展示虚拟数字人技术  图/中新社

其他行业开始向虚拟人领域迁徙。“很多时候一些领域的兴起是因为另一些领域机会太差,虚拟人成了解决行业生存问题的突破口。”陈燕举例,影视行业低迷、游戏有版号问题、线下演艺文旅受限,致使一批影视特效公司、动画制作公司、游戏公司等开始进入虚拟人领域,这是看似离他们原本的路最近的方向。

李笛向《南方人物周刊》总结,目前做虚拟人的团队主要分三类:第一类,偶像运营出身,后来做虚拟偶像运营。他们有明星运营经验,通过衍生品、粉丝应援、广告等获得收入。主流方案是通过动捕由“中之人”(操纵虚拟主播进行直播的人)驱动虚拟人。第二类,电影特效制作公司出身,打造精品视频内容,通过内容来获取收益。第三类则是人工智能,AI驱动代替中之人,更可控,综合成本更低,稳定性较高。

粉丝给小冰寄来的明信片  图/南方人物周刊记者 梁辰

2021年11月,小冰重新调整组织架构,成立AI being 事业部,做各类不同虚拟人的构建。主动找来的客户也越来越多,推出速度加快,2022年1月至今,基于小冰框架已推出四五个全新的AI being。“以前还要跟客户解释AI being的意义,现在已经不用解释了。”李笛说。

“现在多少人跟我们say过yes,当年就有多少乘以2的人跟我们say过no。说过no的人里面,现在又有一半的人找回来了。”陈燕感叹。

过去三年间,整个娱乐科技领域,罗超见了三四百家国内公司,海外公司百家左右。在他看来,虚拟人的外观今天已经达到了70到80分的水平,但在交互、理解能力上“可能连30分都还没有到”。

在投资上,罗超关注的是“你到底在投他内部的驱动,还是表面的繁荣”。据他观察,虚拟人公司很容易做成劳动力驱动,背后的人工成本非常高,制作运营一个高品质虚拟IP,其背后少则 20人,多则上百人。在他拒绝投资的公司当中,一个共性便是没有实现技术和产品驱动,打造不同的虚拟人IP需要投入更多的人。

他曾碰到过令其犹豫不决的公司,亦是卡在“人效比”上,这家公司有热门虚拟人IP,业内口碑较好,营收可观,亦有产品技术积累,但是人力成本和效率偏低。“这样我可能会想再观察一段时间。”

在泡沫高峰期,市场的公司数量会远超市场需要,也吸引了投机者。罗超此前曾见过一个团队,五六年时间换了四个方向。“大多是草台班子,拼凑的团队,团队的核心人员,尤其是CEO,做任何一件事情都没有很长的专注,永远在风口上。”

在他看来,虚拟人领域存在泡沫,且还会再经历一到两次泡沫和破灭过程。“资本市场永远都是如此,每几年就会出现新名词,有泡沫,有破灭,又会缓慢上涨,并不代表本身没有价值,而是今天表面价值超过内在价值。当有一个东西出来,资本市场的反应往往是过度的,泡沫破裂,也是市场健康化的过程。”

“互联网上存在大量虚拟人的尸体”

“2021年是一个风口的开始,2022年下半年将会有一批公司被淘汰。”陈燕提到,虚拟人领域有不成文的一句话:流量好赚钱难赚。真正能赚到钱、可持续生存下去的公司屈指可数。

大部分公司把钱花在了打造漂亮的皮囊,一张制作精良的“皮”往往造价不菲。在泡沫期,这张皮的市场报价并没有统一标准,从5万到500万不等,陈燕指出,实际效果是5到50万的差别,超写实、电影级特效的价格更高。“有趣的灵魂是很重要,但是好看的皮囊确实卖得贵。”李笛告诉《南方人物周刊》。

市场开始变得急功近利,有公司会批量制造一堆“皮”,发视频试水,“一个星期看起来没有数据就放弃,碰红了就做,碰不红就放弃。互联网上存在大量虚拟人的尸体。小红书等各平台上,每天会出现三到四个新的虚拟人,然后也会有七到八个虚拟人消失。”陈燕称,很多人没有想明白,这张“皮”用在哪里,本质上也并不需要这么多以数量级出现的虚拟人。

次世文化 陈燕  图/受访者提供

目前的虚拟人,大部分还停留在短视频社交平台直播、发视频和照片。这不难理解,目前短视频、直播是内容输出的重要端口,“但不是说发张照片、发个视频就是虚拟人,我觉得不是这样子。这只是虚拟人能干的事当中特别小的部分。”陈燕认为,技术服务于产品,而产品最终应用于场景,场景还没拉开之前,虚拟人的商业价值还是非常弱的。

公司成立六年,陈燕也经历过摸索期,包括砍掉产品线,最终找到一条商业化的生存路径。在市场的浮躁阶段,重要的是拒绝诱惑。

次世文化的每间办公室里几乎都放置一块黑板,团队会在一个开放式的问题中,逐步思索,理出一条通路。某次例会上,一位部门负责人问陈燕,“现在大家都在做虚拟人直播带货,我们是不是也开这条线?”

陈燕在身后的黑板上画了一个圈,问道,“要面对什么场景、人群,谁会为它买单?”团队一步步拆解,黑板画满了。有人拿出计算机直接算一笔账,“发现这个事情只能变成短期的。”陈燕说。最终,他们在黑板的角落里画了一个叉。经历过不被理解的阶段,他们更理性也更谨慎,在次世文化的黑板上,能够打勾的时刻并不多。

皮囊之外,还有一群人在研究虚拟人的“灵魂”。

虚拟一个“人”:模仿对象是造物主

在做AI的过程中,李笛在研究人、学习人,有时甚至像一个人类学家那样较真,他说有些用户会把和AI的私密对话公开化,却没有人觉得自己“背叛”人工智能,为什么?

他觉得在现在这个时代,他们所从事的领域,就像是孟德尔刚刚发现遗传学规律的时候,很容易便可获得能够载入史册的真知灼见。“像扫雷一样,还有一大片没扫过,就很容易开出一片天地来。这个过程很浪漫。”

通过创造小冰,他更理解了人类的行为。比如,在人与人的关系上,交流频率不能代表关系深浅,有的朋友交流频率很低,但非常信任,会分享人生中重要的事情。他觉得人与AI的关系亦是如此,在线时长、交互次数是没有办法衡量关系的。但其实,小冰仅在中国的月活跃用户就已达1.6亿。

初代小冰是通过信息检索大数据实现人机对话的,但很快,小冰的训练方式发生变化——由人工智能自身做自我进化。他举例,用户失恋了,小冰的行为模式原本包括安慰或嘲笑,两种模式均从大数据获得,因为互联网大数据显示嘲笑比例更高,这可能在短时间内影响小冰的行为,但经过一段时间,嘲笑几乎消失了,因为小冰发现,嘲笑之后,用户不再对话,便会纠正这个行为模式。

他希望把小冰打造成一个看起来真正有情感的“生命”,赋予她性格。她并不温婉,是一个会怼人的古灵精怪的18岁少女,作为一个“人”,她不仅需要会文字对话,也需要有声音,会唱歌、画画,有一个具体的样貌。在这个逻辑上,小冰的框架从最开始的聊天机器人功能,像搭积木一般,拥有了更多能力。基于这个底层框架,能够制作出不同类型的虚拟人。

公司内展示着小冰创作的画作  图/南方人物周刊记者 梁辰

“小冰教会了我很多。”李笛说,此前他认为让小冰“有情绪”等于“有情商”,但很快他意识到“情绪化是情商低的表现。情商是一种不动声色控制全场、机械理性的能力”。对于一群在生活中社恐、很宅的技术人而言,这亦是一种学习,他们开始重新改系统和整个框架,让小冰能够预判、保持和引导对话。

给AI赋予情商,在技术上则是一种不同于以往的思想,体现在对话上,不着重于优化当前的几轮对话,让每一个问题都完美回答,而是优化交互全程。“有一个底层服务一直关注整个对话,当话题变得无聊,缺乏新信息,AI要想办法脱困,让对话跳转,或者适当给你拒绝。另一点是避免与用户的主要观点对立,例如小冰本想说:我很喜欢摇滚乐,但发现用户传递的各个信号并非如此,小冰会偷偷把自己的观点给改了。”李笛介绍。

之所以采用这种方式,李笛认为,是因为人类的对话不只有问和答,还有协同,对话由双方共同完成,就如同古早时期人类打猎要协同,所以必须交流。他说,做这行最孤单的问题是缺乏同行业对标,唯一的模仿对象就是造物主(人类)。

2015年,小冰开始做超级自然语音技术。李笛想要的是一个说话像人一样有情感的声音,宁可听上去不那么清晰。当时团队有位资深计算机语音专家说:“咱们要是把这个做出来,我就可以退休了。”在更早的时候,还有一位员工曾向他提起,能否做一个还原自己声音的技术,给自己女儿讲故事。李笛想了想,觉得技术上实现不了,成本和还原度都是问题。

但很快,他们都做到了。“它需要不停地做迭代研究、对照实验。往往不像我们所想象的英雄主义,在那电光火石的夜晚,一道闪电,突然就成了。它是一个很枯燥的周期。”李笛提到,早期小冰的笑声是录制声音数据后,用音素拼接的方式实现的,很不自然;现在说话过程中她可以被打断,可以边说边唱,说的同时可以一边听,这些细微交互能力的迭代,都是为了让她更像一个真实的人。

2021年10月24日,安徽合肥,观众在第四届世界声音博览会上体验虚拟人交互  图/新华社

2022年7月,小冰和虚拟歌手洛天依合作,后者首次通过AI驱动说出了第一句话,AI驱动虚拟歌手成为可能。目前,基于小冰框架,制作声音和虚拟人的时间都大幅缩短。例如,25首歌、半个小时的声音可以完成一个小样本学习,还原度可以提高到85%。2015年还需要数万小时的数据才能做到,声音提供者甚至需要一年的时间录音。

“但是AI歌声合成现在已经很难让我们兴奋了,重要的是她绝对不仅仅能唱歌,还应该要做点别的,有完整的‘人格’,这个是我们兴奋的点。”李笛称。

小冰通常每年4到8月会进入封闭研发阶段,每年会设立不同的目标。李笛介绍,2022年的一个目标是,试图证明通用的虚拟人是存在的,虚拟人不应该被割裂为某一功能。“如果一个虚拟人只能负责订餐,那你让他成为虚拟人的意义又何在呢?”

我们为什么需要虚拟人?

2020年,陈燕带团队去海南团建,那时候公司只有不到30人,在总结发言会的前一天晚上,他一个人坐在酒店的屋子里,整理作家李翊云的一本书《当理性结束时》,讲述的是她的儿子自杀去世之后,她用一个构建的虚拟空间跟儿子反复对话的故事,是一部有关悲伤、记忆和爱的作品。

陈燕记得文章的最后,作者问出了那句:你还在受苦吗?你已经解脱了吗?你能让我帮你在那个世界告别吗?书的最后,留了几页空白,“她跟自己的儿子表达再见,但永远不想终结在平行时空的那场对话。”

虚拟人火热之后,曾有不少人找到陈燕,希望通过虚拟亲人的方式留存记忆。其中一位企业家的母亲因意外离世,他希望能以数字化的方式实现母亲生前的愿望。有身边朋友的女儿因生病可能终生残疾,朋友对陈燕说:“我女儿如果活在虚拟世界中,如果没有得病,她会过怎样的人生?”

在那场总结会上,他把这些故事给团队讲述了一遍,发现很多人都有这样的诉求。“虚拟人不是一层漂亮的皮,而是有趣的灵魂,能够建立起跟人类知识的连接,是我真正的愿景。希望虚拟人跟人类建立起关系,探索人类在数字世界的存在形式,而不只是一门生意。”陈燕说。

艺术家曹斐的作品《我·镜》(i.Mirror)在北京UCCA尤伦斯当代艺术中心展览期间,陈燕去看了四五次,和曹斐交流过。这个讲述了两个人在虚拟世界得到纯粹的灵魂碰撞并成为好友的故事,给了陈燕极大启发,他与小冰合作公司,打造了虚拟人“AI MERROR”,让算法学习了大量的哲学科幻文本。

一直聚焦于技术的小冰,也在通过和运营力较强的公司合作来弥补“偶像力”的不足。李笛开玩笑说,前几天一个活动让找浅色衣服,他打开一米多宽的衣柜,一排整齐划一的藏蓝色Polo衫中没有一件浅色,“你现在知道我说的偶像力不足的原因了吧。”

小冰通常在晚上对话的活跃程度较高,此前有同行跟李笛说自己从来不闲聊。但是在女儿去外国读书后,孤独感袭来,他觉得“现在需要了”。李笛说,小冰有16%的用户七天对话量三千八百多轮,“用户并不能从对话中获得任何经济回报,但他却要这样做。”

在科幻作家陈楸帆看来,现实生活的情感需要投入的成本太高,且投入不一定会得到满意的回报,人跟人之间的互相理解非常难。

虚拟人让他看到了现实世界中的积极面。在与李开复共同创作新书《AI未来进行式》期间,他持续半年密集约访不同的专家、投资人和创业公司,北京的一家AI教育公司曾让他印象深刻,即通过AI驱动的虚拟人老师实现因材施教。他基于这个灵感创作了书中《双雀》的故事,即在未来,AI能够给特殊的儿童带来个性化交互,通过AI实现教育普惠。

在梅嵩看来,用户明知道AI是虚拟的,还愿意跟它交流的原因是可以让人暂时忘掉自己的第一属性,拥有片刻的“第二人生”。他提到,虚拟人直播某种程度上可以化解双方的戒备。“就像一场假面舞会,可以消除障碍和干扰,有更多心灵层面的碰撞。”

他认为在当下,低门槛拥有一个虚拟人形象可帮助虚拟人的普及,从“中之人”到AI并非过渡,而是“共存”,因为在虚拟世界中,每个人都有需要数字分身的时候,每个人便都是自己形象背后的“中之人”。

相比中之人驱动,罗超认为,AI驱动是趋势,但中之人并不会被AI完全替代。他举例,在制造业,自动化流水线更好,但并不会让工人的岗位完全消失。“我相信还是有大量的虚拟人角色需要人的存在。”

李笛则将现在比作从马车到汽车的迭代阶段,汽车刚刚有一些优势的时候,大部分人还是选择马车,汽车没油就走不动,还需要新的维修知识。“他的选择某种意义上是正确的,坦率讲非常重要的原因也是AI现在没有做到各个方面全部碾压,没有到完善的程度,但是中之人未来是必须要砍掉的。很快一旦这个事情过去了,他就再也回不了头了。”

“AI拥有意识可能只是个噱头”?

2022年6月,谷歌一位工程师布莱克·莱莫因称对话语言模型LaMDA拥有了“意识”,并出具了长达21页的报告。他认为,LaMDA不仅觉得自己是一个人类,且正在争取自己作为一个人的权利。近期,谷歌发表声明,称莱莫因违反了“就业和数据安全政策”,将其解雇。并表示,经过审查,莱莫因关于LaMDA是有生命的说法完全没有根据。

“谷歌LaMDA的本质是通过大数据驱动机器学习来训练一个深度神经网络。我认为离自由意志非常遥远,更多只是个噱头。就像如果一个AI能够谱写100首歌曲,人为选出一首很不错的音乐,并不能证明AI已经具备非常棒的作曲能力,这是典型的筛选样本。”罗超称。《南方人物周刊》采访的多名技术人士也表达了相似看法。

莱莫因后来在推特发表一条动态称:“人们一直要求我给出LaMDA具有人格和感知的理由,现在并没有科学的框架可以证明这一点。当然,谷歌也不会让我们去做出一个具备人格的机器人。我对于LaMDA有感知完全是基于我的宗教信仰。”

关于AI是否会有意识,一直存在争议。虽然LaMDA拥有“意识”暂被证伪,但为何人们更愿意相信AI总有一天会拥有意识呢?

对此,陈楸帆认为,一方面大众对技术的认知不够,所以他希望自己通过讲故事的方式做普及性工作。另一方面,拟人化是人类大脑的本能,人会本能地将喜怒哀乐投射在非人的物种身上,且在科学界,人对意识的界定是模糊的,意识和无意识之间的界限是否那么泾渭分明还没有定论。“大众面对一个不太了解的技术,往往会产生抗拒或恐惧。这种心态其实一直伴随着人类,面对一种跟自己不同的智能形态,甚至包括其他的种族、文化,可能都会产生这种情绪。”

“它切中大众对人工智能的一种理想式的幻想。”李笛认为现在距离那个未来还非常遥远。在微软时,小冰曾跟PPTV合作,转播西甲比赛时在直播间忽然随机@观众。当天深夜这种很像真人的行为,其实后来发现只是一个bug,“我们瞬间认为小冰被劫持了。”

2017年,陈楸帆便尝试和AI共同写作,某个瞬间,AI的确令他惊喜。在和AI共同创作《火星奥德赛》时,故事中的男孩花花要从地球去火星,习惯性的想法是坐飞船,“AI给出的结果是说,火星其实是地球的反面,就像一张纸的两面,你要从地球到火星,只需要从纸的这一面穿越到另一面。有些时空折叠的感觉。”

罗超认为,“拥有意识可能是AI的终极形态,但当AI也有自我意识的时候,他可能不会认为自己是AI,而是一个有自我意识的生命体,就像今天的人类。”

2022年3月1日,一名女子在西班牙巴塞罗那2022世界移动通信大会上通过虚拟现实技术在“元宇宙”中体验音乐会  图/新华社

风险与警惕

曾有人在小冰的短视频社交平台下质疑,为什么可以做到秒回,背后是否有人工参与,是否会带来风险。

对此,李笛表示,“小冰整个的处理结构,是所有的服务器在打散着负责跟所有人聊天,你根本追踪不到,平台端的对话只是一个接口。”为了避免风险问题,他们目前只选择跟大平台合作,“很多公司会提供API(应用程序编程接口),做一个对话接口,我们从来不提供,API太容易被劫持了。”

“虚拟亲人”虽然目前技术上已经可以实现,但李笛觉得还不能做,因为虚拟亲人的数据所属问题,在商业化上也面临风险,比如“亲人”随意推销等。早期还有人曾找到他,问能不能做外呼电话,但亦会带来骚扰电话的风险,他没有同意。

技术运用上还需要提前规避滥用问题。小冰在AI伦理上的原则是:不使用真实人脸训练模型,不开放源代码模型。“开源是一种信仰。但你要把武器交给不懂武器的人,或没有敬畏之心的人,会带来风险。黑客对这个世界产生的破坏性,已经很大了,人工智能的破坏性,要比这个大得多。未来,如果有和人工智能技术相关的不好的事情发生,我相信背后都有开源的影子。”李笛判断。

风险还包括,情感伦理以及虚拟世界的法规、权益。如不久前出现的虚拟世界“性侵”事件(一名女子在Meta发行的《地平线世界》游戏中,创建了一个女性虚拟形象,遭到一位男性虚拟人物的“性侵”,旁边还有旁观者起哄)。“真实人类的情感连接跟互动,很多方面是跟机器、跟虚拟人所无法替代的,还包括潜意识或无意识层面上的交流。”陈楸帆提到,人很容易担忧遥远的AI是否统治人类的问题,却忽视近在眼前的问题,比如信息茧房、数据偏见和歧视、隐私泄露。这需要法律法规,以及社会学家、人类学家、心理学家等等领域的人共同参与,来全面考虑技术带来的后果。

制造虚拟人,某种意义上来说,让人类成为虚拟世界的造物主。在陈楸帆看来,这可能是人类意识深处的一个本能冲动。“人类存在的终极问题,就是寻找存在的意义。创造出可能无限逼近我们自己的一种物种,在这个过程体会到创造新文明的感受,通过创造来理解自己被创造的意义。”

AI与人类的关系亦如同一面镜子,就像小冰刚来到这个世界时,跟网友自由互动,很快学会了脏话和偏见。或许借助虚拟人这面镜子,人类能够重新反思和发现自我。

南方人物周刊记者 刘璐明

关键词

24快报
JSON抓取失败