驱动虚拟人的核心能力是什么?
在很多人的眼中,是A soul背后的中之人,那是动捕技术的集大成者,只需要通过穿戴设备、摄像头,人类便能操纵虚拟人模型自由活动起来;另一种方式则要复杂得多,即类似做3D动画的手段,用丰富的动作表情库加持虚拟人的驱动,事实上是一种“剪辑”行为。
尽管目前两种驱动技术已经广泛运用于虚拟人领域中,但在中科深智创始人兼CEO成维忠的眼里,它们并不是虚拟人领域的原生技术,“这两种技术只是阶段性的产物,是万不得已才会用的。”
换句话说,从更深层次的角度出发,这两种技术并不能赋予虚拟人“灵魂”,既达不到高效的驱动,高昂的成本也会让虚拟人的应用场景更加受限。在成维忠和中科深智看来,真正能赋予虚拟人“灵魂”的,正是目前火热的生成式AI技术。
这并不是对当下潮流的一次跟风。中科深智成立于2016年4月,彼时XR概念兴起,对于下一代互联网的构想也在业内迎来讨论,尽管还没有元宇宙等概念,但3D的、沉浸式的网络体验开始被广泛提及,VR等设备的出现及爆火就是最好的例证。也正是从那时开始,初音未来、洛天依等虚拟偶像开始进入公众视野,“虚拟人”行业初现萌芽。
在经历过移动电商、数字营销等新行业的连续创业之后,成维忠将目光瞄准了这一领域,参与进未来网络世界的构建令人兴奋,此前在游戏行业的经历也为他提供了经验,于是,中科深智诞生了。在早期构想里,成维忠和团队希望,借助软件和算法,助力3D内容的生产与创作,而虚拟人的动作表情驱动则是其中的重点,并逐渐成为了中科深智最核心的技术点。
时隔七年,中科深智已经成长为国内头部的虚拟人公司,在虚拟人驱动领域拥有着相对成熟的技术,并且在B端的商业化也取得了不错的进展,也是资本市场最为关注的虚拟人公司之一。而真正引起刺猬公社注意的是,中科深智早从创业之初开始就将AI技术作为虚拟人驱动的最佳解决方案,正如前文提到的,成维忠认为,AI才是驱动虚拟人的原生技术。
在大语言模型与AIGC创业成为热潮的今天,中科深智已经做了好几年的“AIGC”。从某种角度来讲,这其实是一家AI领域的创业公司,并且已经在技术和商业上卓有成效。
一个初春午后,刺猬公社(ID:ciweigongshe)来到了丰台科技园总部基地,不同于互联网公司产业园的摩登气息,这里更加静谧严肃,园区内的大多数公司也都是技术公司,通信、建筑、电子,硬核气息扑面而来,中科深智的总部就设置在这里。
最近,成维忠在社交媒体上很活跃,同时频繁地出现在国内各大AI相关的论坛中,对于ChatGPT及大语言模型等话题,他有着许多新颖的观点,这一次的拜访,也是希望能跟他聊一聊虚拟人领域的AIGC发展。
“从本质上来讲,我们是做生成式AI的。”成维忠介绍,正如ChatGPT等产品背后的大语言模型一样,中科深智的核心技术同样是以大模型为基底的,但不同的是,他们依赖的是多模态大模型,即自然语言、3D动作表情等多个模块组成的大模型产物。
“我们自研发了CLAP模型,也是一个预训练模型。”如果说风靡全球的clip模型解决的是从语言到图像的问题,那么中科深智的CLAP大模型则是在3D动作上进发,简单来讲,用自然语言输入指令,虚拟人就能在多模态大模型的作用下生成连贯的动作与表情,这看似是一种AI生成动画的方式,但底层逻辑和技术难度要更复杂。
据成维忠介绍,在目前许多AI生成动画的产品研发上,其实是“帧视频”或者“帧动画”,即用大模型生成不同的视觉图像或者内容,再通过AI技术进行组合,“本质上是个2D技术”。这与虚拟人驱动中的动作表情库路径大致类似,即对已有的动作表情数据进行剪辑组合,并非真正依靠语言、文本输入,只不过“剪辑师”和“原画师”变成了AI。
中科深智想要走的,是3D路径,即依靠自然语言输入实时生成动作表情,再依靠渲染引擎实现精美的视觉表现。简单来讲,在clap模型的驱动下,一个虚拟人形象是真正拥有“骨骼”和“面部神经”的,并且它们是真正能动起来的,这依赖于大量的数据学习,身体关节、运动轨迹、面部表情,甚至眼神,都是大模型需要去学习的数据。
通过模型,AI教会虚拟人如何“动作”,再通过自然语言输入指令,实现实时驱动,再通过3D渲染引擎,进行图像输出,这就是中科深智做虚拟人的核心逻辑。
“就像文本和图像生成一样,我们的内容输出同样学习大量的子集数据,并且通过合理的顺序进行生产,但不同的是,我们还需要一个时间轴,在3D虚拟人动作生成上,时间必须要卡的精准,不能出现错误。”这也是技术难点之一,围绕这些问题,中科深智进行了大量的技术研究,最终研发出了自己的多模态虚拟人驱动业务中台Motionverse。
“我们的参数量是10个亿左右。”成维忠告诉刺猬公社,尽管跟GPT系列的大语言模型还差很多个数量级,但在虚拟人驱动以及3D内容生成领域,中科深智已经是相对领先,但数据的需求量还在不断增加,数据量、算力资源始终是目前AIGC公司最需要的,伴随参数量、数据量的扩大,也能生成更优质的动作表情。
“现如今我们已经能实现不错的单人交互了,效果已经很好了。双人交互今年年底也会有突破,但仍需要时间。”在成维忠看来,伴随ChatGPT等大语言模型的成熟,虚拟人驱动技术也将迎来更快的发展。
从市场端来看,这种变化已经在实时发生,相比往年的高昂价格,在AI技术、视觉技术的加持下,虚拟人的成本已经大大降低,“今年,单个虚拟人制作的市场价格应该是在5万,不会超过5万,到今年明年也许是1万,也许会更便宜。”
伴随成本的下降,越来越多的公司开始使用虚拟人,在技术的加持下,虚拟主播、虚拟客服越发常见,中科深智也连续几年实现千万量级的营收。
但这一过程是艰难且漫长的,2016年早早入局,但中科深智一直专注在底层技术研发,没有做太多商业化尝试,早期研发费用一直是自掏腰包。直到2019年,第一款成熟的虚拟人驱动产品问世,中科深智的商业化进程开始,在虚拟直播、电商领域的B端攻城略地,2020年,公司也迎来了第一笔融资。
现如今在电商虚拟直播领域,中科深智已经达到了70%的市场份额,并于近期升级了虚拟人直播工具百宝箱“自动播”,将为电商平台提供虚拟人主播、虚拟人客服、虚拟直播间等技术支持。这也与成维忠的下一个构想息息相关,他认为,虚拟人不仅仅只是数字产品,更代表着下一代人机交互的新模式。
“我们最近在研究一个领域,即NUI,自然用户界面,我认为未来的使用场景也非常大。”伴随大语言模型及跨模态大模型等AI技术的成熟,与AI的多轮对话和实时交互不再是幻想,ChatGPT等产品展现出的强大理解能力与思维能力更让AI拥有了与人类平等交流的机会。
那么在语言模型与3D视觉技术成熟的今天,我们能否让AI以虚拟人的形象与我们展开对话,甚至服务呢?
成维忠的答案是可以。
NUI即是人机交互的新表现形式,设想一下,在以后的线上体验中,虚拟人代替功能菜单,你只需要一句指令就能调动相对应的功能,如同《钢铁侠》中的贾维斯一样,人机交互的效率、体验都将大大提升。中科深智目前在做的就是类似的事情,无论是电商领域的虚拟直播间还是虚拟人主播、客服,都是在进行NUI的初步尝试,让虚拟人取代传统的GUI(图像用户界面),或许只是时间问题。
成维忠告诉我们,大模型的变革或许代表着新时代操作系统的出现,“操作系统里面最核心的是两点,一点它有一个人机交互界面,另外一点有一个资源和应用的管理系统。”大语言模型就是在人机交互及数据资源调配上的一次重大进步,在微软、谷歌、OpenAI等巨头的努力之下,操作系统正在构建,而中科深智或许能够凭借自己的多模态驱动技术让NUI成为现实。
不过这都是后话了。对于中科深智来说,更吸引他们的是NUI未来的商业化场景,现如今虚拟人能够应用于娱乐、带货等场景,在未来NUI成熟的情况下,服务类的场景或许都能迎来虚拟人的进入,而在游戏、教育等领域,虚拟人或许也会实现突破。
但制约着这些设想的仍旧是技术。“目前的痛点仍旧是技术,很多东西还没法做到,但一旦实现突破,产业或许将迎来大爆发。”市场需求与技术之间是相辅相成的,需求或许已经存在了,仍需要不断地研发去填补供给端的不足。
在对谈的最后,我们来到了中科深智的演示大厅,这里位于地下一层,空间里放置着几块大屏幕,屏幕中是几个虚拟人,现实与虚拟一线之隔。我们跟一个虚拟人展开对话,在语言指令下,她能够实时跟你对谈、聊天,为你跳舞、讲笑话,尽管动作目前还无法和真人一样,但“人工智能”的样子已深入人心。未来,作为下一代互联网的NUI,或许将无处不在。