专访

对话中科深智成维忠:数字人的关键是交互,交互的关键是大模型

" 今年的数字人市场迎来了天翻地覆的变化。" 中科深智创始人成维忠对目前国内的数字人市场如是评价。

作者丨王悦

编辑丨董子博

" 今年的数字人市场迎来了天翻地覆的变化。" 中科深智创始人成维忠对目前国内的数字人市场如是评价。

过去,国内数字人企业真正做技术的并不多,大部分以 IP 打造为主。

出道即巅峰的虚拟美妆达人柳夜熙,一条视频成本百万,可现今抖音单条视频平均只有 20 万,后劲不足,不复往昔繁华。

风靡一时的 A-SOUL 曾是虚拟女团天花板,一时风光无限好。然而,5 月 10 日,其运营团队突然宣布旗下成员珈乐进入直播休眠,瞬间打破全部幻想。

" 有的企业半年没接到单,很正常。"

从现状和收效来看,主打人设和剧情并不是长远发展的模式,技术定力或许是数字人企业未来生存的关键所在。

中科深智成立七年多的时间以来,一直专注于 3D 虚拟人技术领域。成维忠一直相信,人是未来 3D 交互的重中之重,而这种与 " 人 " 的交互,则必须通过 AI 和大模型来完成。

目前,公司的工作重心在自己研发的 CLAP (对比性语言 - 动作预处理模型)算法上。这种跨模态训练可以通过文本去设置动作表情,再通过声音去生成动作表情。在这一点上,中科深智是国内起步较早的一家企业。

5 月 10 日,中科深智发布了两个大模型,分别包含 200 亿和 20 亿参数,以针对不同用户的不同需求。成维忠表示,200 亿和 20 亿两个参数版本模型,在实际应用场景时,实则与千亿模型的效果,实际表现差异不大。

大模型公布后,中科深智还会再将 transformer 进行算法升级,从 language model 升级到 large language model,从传统的语言解析升级到大语言模型,完成后,虚拟人的语言和表情等效果都会提升。

将数字人和多模态大模型双剑合璧,不仅是两项技术的结合,更是 1+1>2 的相辅相成。

一方面,数字人可以作为更易用的 C 端入口,为大模型提供语音、动作、情感等丰富的多模态数据,形成 "User in the loop" 的模式,为大模型形成 " 数据飞轮 ";另一方面,凭借大模型强大的内容理解和生成能力,数字人也能得到 " 灵魂 ",用更强大的 " 内在 " 来驱动更好的用户交互。

近日,AI 科技评论与中科深智创始人成维忠进行了一次对话,探讨了中科深智在数字人领域一路走来的探索历程。从最初选择 3D 虚拟人的坚定,到关键核心技术的攻艰,再到大模型发布,以及未来的场景落地,每一步,都是中国数字人企业发展的写照。

以下是 AI 科技评论和成维忠的对谈实录,雷峰网在不改变原意的前提下,进行了调整和编辑:

交互是虚拟人的第一性

AI 科技评论:从今年的市场状况来看,交互性低的 IP 型数字人目前来看并不是一个很好的生意。未来,这种颓势会反弹吗?

成维忠:不会反弹,只会更艰难。不论什么风格的虚拟人,它与传统动画的分野是很清晰的。传统动画是离线的,不注重非实时互动的,发展线路很窄,而虚拟人追求与用户的实时互动,如果做不到注定要被淘汰。

IP 型数字人出现后开始吸引粉丝,用传统 CG 方式来做。其实这只有资本的价值,没有落地产品价值,从根本上讲与传统动画没有差别。做到现在来看,他们的处境很艰难,这是可以预见的。

其实,这种困境的原因在于第一性原理没看清楚,有粉丝当然很好,长得漂亮也好,但是虚拟人首要的是跟用户之间的互动,没有这一点,整个生意是走不下去的。

AI 科技评论:近几年,人们对虚拟人的关注有哪些变化?

成维忠:最早大家比较关注虚拟人的形象,前年和去年上半年都关注虚拟人的动作,去年下半年开始关注实时交互性。

数字人的交互性推动我们做语言的解析,也就是从输入端到最后的成像端,形成一个端到端的解决方案,我们认为技术公司需要干这个事,如果不是端到端的解决方案,将来可能会有较大的问题。

AI 科技评论:语言解析具体是怎么做的?

成维忠:从语言的解析部分来看,其实最关键的是动作和表情生成技术,其底层都是 transformer 。我们做 transformer 很早, 2020 年初,就把整个的动作、表情生成作为工作的重心,然后底层用的就是 transformer 的算法。

几年的过程中,我们一直关注基于 transformer 的自然语言处理的发展。早期谷歌的 Bert 出来,效果比较好,在这个过程当中我们也所借鉴。

在做动作表情生成的时候,我们有自己的算法叫 CLAP 算法。最开始做 CLAP 算法的时候,大厂也没开始做这种跨模态训练,我们其实很恐慌。因为要通过文本去设置动作表情,然后通过声音、音速、节奏去生成动作表情,没人做这个事,可供借鉴的文章也很少,这种探索是非常痛苦的。

直到 OpenAI 在 2021 年公布了 DALL-E,也是基于 transformer 语言,二者的逻辑有相似之处,给我们吃了定心丸。

AI 科技评论:2020 年的时候,针对哪种语言架构比较好这一问题是没有定论的,直到 ChatGPT 出来之后,transformer 才变成业界的一个共识。为什么中科深智最早在 2019 年就开始关注 transformer?

成维忠:其实关注 transformer 前,中科深智从 2016 年是主做动作捕捉的。

动捕做到 2019 年,出现两个大问题:其一,动作捕捉在未来的元宇宙或相关应用中是细分的垂直市场,今年如果有些公司他的重心还是在动捕方面,那他们一定是极端困难的;其二,虚拟人或元宇宙的技术,本质在于 XR+AI,所处时期不同,发展的侧重点也不同,两部分都是不可或缺的。

2019 年我们也发现动捕与新出现的 AI 融合度很低,这促使我们去思考选什么样的技术路径。随后,标杆的事件发生,即 GPT-2 上线,就完全转到 transformer 上来,我的合伙人宋健敏锐地觉察到这个方向很好,之前我们也有类似的架构,但是学习效率很低、成本高、对团队的要求也高,但 GPT-2 很好的解决了学习效率的问题,所以就一直顺着这个方向做。

AI 科技评论:中科深智的数字人目前有哪些可以落地的商业场景?

成维忠:从商业化的角度来看,我们始终觉得交互是最重要的。顺着这个思路,选择了两个场景:一是 SaaS 产品,去找大的存量市场,将虚拟人做成中间性很强的产品,比如电商,直接交付给客户就可以立刻使用;二是赋能传统的集成商或承包商,帮他们做用户界面升级,将图形界面升级成虚拟人,比如银行。

AI 科技评论:除此之外,还有哪些比较有前景的落地场景?

成维忠:如果把数字人看做 AUI,那么现在所有的互联网和移动互联网都可以升级,体量是很庞大的。我们今年的工作重心除了算法迭代之外,还会针对数字人交互性的特点,形成多种解决方案。站在交互的角度来讲,其本身又可以分为多种方式,比如语音助手和垂直领域落地,它是交互与业务流的结合,跟它的 RPA 之间有深度链接,中科深智目前还在研究和探索,背后的市场很大。

大模型是数字人的信号输入

AI 科技评论:有人说大语言模型是大厂的菜,对于小公司来说,用就行了。您如何看待这种说法?

成维忠:其实并不是这样的,今年二月份的时候,我们对这个问题就看得很明白了。一方面,小公司如果不拿到大语言模型的开源代码,就无法实现跨模态训练;另一方面,我们的客户希望做定制和私有化部署,如果没有大语言模型,也无法实现这一要求。所以,从二月份开始,我们决定做自己的大语言模型,过去多年的积累也会让我们的步伐比较快。

AI 科技评论:有用户反馈,目前市面上的大模型无法满足他们的要求。中科深智做的大模型能否满足驱动数字人的要求?

成维忠:起步阶段,我们就对国内外主流的大模型进行测试,发现几个问题:第一是调用的速度不能满足虚拟人的实时交互要求,其实响应速度的问题从原理上来说是解决不了的;第二是国外的模型对于中文的支持度很差,国内的模型虽然调用的速度快,但是在开放性方面存在问题。

而客户的要求首先则是算力消耗要低,国内用户对这点很敏感,按照现在各家的报价来推理,我们的用户是用不起的。

AI 科技评论:今年 3 月, ChatGPT   的 API 开放之后,价格是下降了 90% 的。

成维忠:但对用户来说需要频繁地使用它,其实还是很贵的。所以推理的成本和推理的速度是我的客户考虑的点。

这也是我们做了 200 亿和 20 亿参数模型的原因。200 亿参数的推理用的是一张 V100 显卡,20 亿参数模型用了一张 3090 显卡,而且有在其中加冗余,在暴力测试的过程中,3060 的显卡就可以把模型跑起来。

而且,除了成本和推理速度问题,客户并不关心大模型是否能够解数学题、下棋,最关键的是你写出来的中文是不是靠谱,不能带翻译腔。

第三点就是私有化部署的问题。当下用户在使用的时候,实际使用更多的还是大模型的泛化能力,能得到的内容,和自己平时的 Know how 差不多,最终技术进步的结果用户很难感知到;而我们发现了这个问题,对应设计了两个模型—— 20 亿参数和 200 亿参数。

其实,大家会有担心,参数量小了,模型效果会不会很差。而在 5 月 10 日的发布会上,我们把 20 亿的模型和 ChatGPT、文心一言进行了对比。实测之后证明,效果肯定会稍微差一点,但从使用的角度来看是足够的。

所以,针对中小客户,首推使用一张 3090 显卡的 20 亿参数模型,它的响应速度很快。

AI 科技评论:20 亿参数模型的能力还是非常强的。那大语言模型和数字人结合,有哪些创新的形式吗?

成维忠:后面,我们会发布一个虚拟直播带货的产品,叫全能智播,直播间中是真人主播和虚拟主播一起带货。虚拟主播连接大模型,真实主播可以给虚拟主播下指令,都是用大模型来驱动的。它不仅仅是主播的功能,还是集成了助播、场控、运营及客服功能于一体的全能数字人,真正站在商家角度考虑,达到降本增效的作用。

AI 科技评论:抖音目前还是希望接着去挖真人主播的潜力,数字人是他们的优先级吗?

成维忠:我们是第一家做虚拟直播的,也是第一家鼓励做虚拟直播商用推广的。目前,不同的平台对这个事情的看法是不太一样的,抖音、天猫、淘宝、京东总体上对虚拟直播持谨慎的态度,因为他们会假设,如果虚拟直播发展太快了,会不会对真人直播造成冲击。

从长期来说,我觉得平台对于虚拟直播、虚拟人应该是开放形态。从根本上来讲,平台是拒绝不了虚拟主播这件事的,一方面,大模型对电商的支撑会越来越厉害,但是大语言模型跟真人之间还是要通过虚拟人结合,如果到那个时间点平台仍然把规则卡得很死就等于把上升空间卡掉了。另一方面,把规则定清晰就可以了。

长期来看,我对它是持乐观态度的,也仍然需要去探索怎么样跟平台、商家、用户找到共赢的方式。

AI 科技评论:这样看起来,其实大模型就是为数字人提供了一个新的生产力的空间?

成维忠:其实,大模型是数字人的一种输入方式。我们核心的 CLAP 算法可以支持多种驱动,比如动作的传感器,把信号输入到 CLAP 中也可以生成动作表情。除此之外,也可以用摄像头、动物传感器作为 CLAP 算法的输入。

大模型是它输入方式的一种,这种输入方式很重要,我们认为,未来很多的场景都是以大模型为主的,这就是为什么我们把它作为重心的原因。

3D 虚拟人的长期主义者

AI 科技评论:公司成立之初,在 3D 超写实和 DeepFake 两条路中,为什么选择前者?

成维忠:我们公司于 2016 年 4 月份成立,到现在为止七年多的时间里 ,从大方向上来讲,我们只做了一件事,就是 3D 虚拟人。

当初选择这一方向的原因也比较简单,主要是基于对行业发展的两个预测:一是,传统互联网向下一步发展所采用的底层技术会发生较大的变化,过去是以图文为主的 2D 方式,而下一代的发展会过渡到 3D 技术;二是,在纯 3D 内容环境中,必然涉及人、货、场三大部分,我们认为人是其中最关键的因素。因为如果要完成人机交互的话,不会像现在这样,人和静态的 3D 环境交互,中间一定需要交互的介质,而人就是 3D 交互的介质。

在这样的两个预判之下,2016 年成立公司之初,我们就决定将 3D 的数字人当做今后发展的立足点。在行业中,有这样的定位,而且是偏技术的公司,我们应该是相对早的。

AI 科技评论:在中国确实没有太多做数字人技术的公司,很多都是拿技术套产品,走的是产品化和工程化的思路,并不以技术见长。

成维忠:是的。甚至有一些公司的重心都不是在做工程化和产品化,而是做虚拟数字人 IP。这种其实用不到数字人技术,更多的是传统的 CG 动画技术,只不过被冠以数字人的形式,但从行业的角度来讲,真正做数字人技术的公司还是很少的。

AI 科技评论:之前了解到一些做虚拟数字人 IP 的公司,他们计划把公司下半年的战略重心从数字人转到数字空间上,主要还是因为营收不是特别好,甚至有的数字人公司已经半年没有接到订单了,这种情况是否属实?

成维忠:根据我的了解,这种情况蛮多的,今年的数字人市场迎来了天翻地覆的变化。

类似于把战略重心从数字人转到数字空间上这样的做法,其背后的原因主要是当下政策对元宇宙项目有很多积极的引导,其倾向于宏大场景的产品。针对这一做法,我们也有思考过是否要从场景入手,中间有过动摇,但最终决定不改变方向。

不改变的主要原因有两点:一方面,从长远看,公司成立之初的两个判断依然成立。如果有一天元宇宙真的落地了,人仍是最关键的因素;另一方面,中科深智还是对人工智能交互关注得比较多,去年我们就感知到,未来虚拟人和场景的结合只是一方面,更多的是与各种人工智能的结合,虚拟人就能满足人机交互的需要。

所以这也是为什么大语言模型出现后,我们能够在短时间内跟上。大语言模型出现之后,人机交互发生了很大变化,这一领域可以将虚拟人的技术优势发挥出来。

AI 科技评论:中科深智目前的工作重点在哪,是如何侧重的?

成维忠:中科深智现在的工作重心在 CLAP 上,等大模型公布后还会再从 transformer 算法升级,从 language model 升级到 large language,在 CLAP 基础上的两个 L,从传统的语言解析升级到大语言模型,完成后虚拟人的语言和表情等功能都会提升。

24快报
JSON抓取失败