专访

对话腾讯音乐天琴董治:聊聊元宇宙与AI技术驱动虚拟人

热度只增不减的元宇宙,让众多互联网公司为之不惜加码,投入大量的人力、物力和财力,从不同角度切入元宇宙这条新赛道。对此,我们很荣幸地邀请到了腾讯音乐天琴实验室,计算机视觉负责人 董治老师,来聊一聊入局元宇宙需要具备哪些能力?

热度只增不减的元宇宙,让众多互联网公司为之不惜加码,投入大量的人力、物力和财力,从不同角度切入元宇宙这条新赛道。对此,我们很荣幸地邀请到了腾讯音乐天琴实验室,计算机视觉负责人 董治老师,来聊一聊入局元宇宙需要具备哪些能力?以及用AI技术驱动的虚拟人从建模到渲染,再到场景应用,当前遇到的瓶颈是什么?腾讯音乐天琴实验室在AI驱动虚拟人方面又做了哪些工作?在本篇采访中,董治老师分享了很多观点和相关经验。

董治 腾讯音乐天琴实验室 , 计算机视觉负责人

董治,腾讯音乐天琴实验室计算机视觉负责人,负责虚拟人舞蹈、歌唱口型、表情、手势、灯光舞美等AI驱动技术,同时负责视频理解、视频检索、视频质量提升、视频剪辑等视频相关算法。毕业于武汉大学,在视频、视觉领域十多年研发经验

文 /董治

策划、编辑 / Teresa

LiveVideoStack:董老师您好,欢迎您接受我们的采访,请先和我们LiveVideoStack的小伙伴们介绍下自己吧。

董治:您好,LiveVideoStack的小伙伴们大家好,我是来自腾讯音乐的董治。

天琴实验室是腾讯音乐首个音视频实验室,致力于通过AI科技提升音娱视听体验,我在其中主要负责的是CV、视频相关的技术。

我加入TME有8年的时间了,也见证了音乐视觉领域的不断发展,从最初的MV,到音乐短视频、直播,以及最近非常火的元宇宙概念,我和团队的同学们都一直深耕在这个领域,利用AI技术来更好地服务我们的用户,为大家不断地带来全新的视觉&听觉体验。

LiveVideoStack:董老师和我们分享下您近期关注的技术热点和行业新闻吧。

董治:近些年我会特别关注到元宇宙、虚拟人相关的技术发展,前2年参加chinajoy的展会时,就发现大家谈论的话题慢慢都离不开元宇宙了。就我个人看来,元宇宙是一个非常长期,需要持续发展的方向,它依赖于各项底层技术的迭代更新,突破瓶颈,以及对用户的不断教育。而虚拟人可能相对来说是一个在短期内更容易实现和普及的方向,它在我们现在的移动互联网时代就可以广泛应用,同时也是迈向元宇宙时代的一大入口。

在虚拟人方面,目前的一大热点是视频动捕的技术,我们也看到一些虚拟偶像通过视频动捕+中之人的方式,取得了不错的效果,后续应该会有更多的虚拟主播会跟进类似的方案。同时,以AI技术驱动会有更加明显的优势,对中之人的依赖更少,内容制作更加便捷,这类技术目前在写实数字人、虚拟新闻主播、虚拟客服方面的应用会更广一些。

因此我们思考的是,如何将AI驱动技术也能够应用在娱乐虚拟人的场景下,以更少的成本,更佳的效果,给用户带来一些全新的感受。

LiveVideoStack:入局元宇宙,几乎成为互联网公司纷纷进军的新赛道。在您看来,入局元宇宙需要具备哪些技术栈能力?还存在哪些技术瓶颈?元宇宙未来发展的方向是什么?

董治:元宇宙依赖非常多的技术栈,比如渲染方面,虽然我们有商用的一些游戏引擎已经较为成熟了,但在建模方面,比如人物建模、场景建模等等,都非常依赖美术的资源,而更进一步的UGC创造就更加困难,这里就需要算法和美术上的突破,去高效和低成本的建模。

在驱动层面,现在的AI驱动技术还有很大的发展空间,这里比较像一个AI创作的事情,类似最近很火的AI画画、AI作曲等,能够做并且做得好,这里就有很大的一个进步的空间。

要做元宇宙,就离不开云渲染,这几年云渲染、云游戏的发展非常快,包括一些原生云游戏也在陆陆续续问世。我们可以感受到云渲染在体验上已经做得很优秀了,包括渲染的精度、延时等等,但现在最大的问题在成本上,相信随着GPU虚拟化,边缘计算等技术的发展,可以不断的去压缩云渲染的成本,让这项技术可以更加的普及。

还有VR终端的普及、对应的用户教育、区块链技术的成熟,底层网络传输的进步等都多多少少存在一些技术瓶颈。但其实元宇宙并不是一蹴而就的事情,我们可以利用已经成熟的技术,去实现一个基础的版本,然后不断的去提升各项技术,去完善元宇宙体验。

最终元宇宙会发展到我们工作生活的方方面面,比如在线会议、教学、远程医疗、虚拟客服等等,都是非常有现实意义,极具应用价值的发展方向。

天琴实验室 虚拟人 小琴

还有我们在做的娱乐行业,虚拟偶像、虚拟直播等都是元宇宙发展的一个形式。TME在元宇宙上也有很多的产品布局,比如QQ音乐世界、KK秀、TMELand等,虚拟人方面有我们天琴实验室最新推出的小琴,还有扇宝、安可等等,以及其他陆续上线的虚拟偶像。

LiveVideoStack:谈到元宇宙可能就无法绕开这里面的主角:虚拟人、数字人、虚拟数字人,董老师能否为我们科普下这三者从技术实现、应用场景等方面有什么区别吗?

董治:我个人感觉没必要区分得太清楚,我们可以从不同的角度来看虚拟人。从直接的感受上来说,有2D和3D的,他们又分别有不同的精度,比如纯卡通风格的、写实感的,还有超写实,甚至全仿真的虚拟人。

更加写实的虚拟人,在新闻播报、客服等,需要去真正替代真人的场景上,会更有应用价值,但相对来说,对技术的要求会更高,因为一旦有一点“不像”,就会有恐怖谷效应,引起用户的反感。

而在我们这样的娱乐场景,各种精度的虚拟人都会被接受,相比于精度,用户更加关注的是“好看”,所以在娱乐场景下的虚拟人,对美术的要求是非常高的,我们要去打造的是更有美感的虚拟人。

LiveVideoStack:随着AI技术的不断进步,不仅简化了虚拟人的制作流程,还降低了制作成本。从形象建模到后续驱动、渲染都可以直接通过AI技术来完成,在这个过程中您觉得最大的痛点是什么?有什么解决思路或方案可以给我们分享下吗?

董治:其实这3个大的环节,都有着各自的痛点。建模是非常费钱的,3年前要建一个超写实的虚拟人,需要千万的量级投入,而现在已经压缩到百万的级别,但其实也还是挺贵的。所以我们可以看到在渲染和AI都不断的去压缩这个成本,只有真正的做到低成本的建模,我们才可能人人都拥有自己的虚拟人形象。

UE 的 MetaHuman 带来了这种可能,Unity 也有对应的方案在跟进,给我们看到未来的一些希望。同时AI技术,一张照片就可以给用户建模,极致的压缩了成本,只是这里的精度还需要不断的加强。我们也可以找到一些专业方案,比如提供照相机的阵列来建模,会有更加不错的效果,这些都是现在的一些可行方案。

AI驱动层面是我们主攻的方向,现在的中之人驱动技术虽然已经很成熟,但也明显出现了一些问题,比如和中之人的过渡绑定造成的一些负面影响,最近也有一些新闻案例。同时,不是所有的主播都那么的能唱能跳,这时通过AI的方式,就可以很好的弥补主播的不足。具体怎么去实现,大家也可以关注到我在LiveVideoStackCon 2022 北京站大会上的分享。

另外,渲染层面是一个很需要权衡取舍的地方,比如大家都知道超写实虚拟人很好看,但可能渲染一帧的画面需要数秒的时间,现有的技术条件下,超写实虚拟人只能做平面,或者CG动画,要做到实时直播很难,这就限制了它的表现形式和空间。我们可以借助游戏引擎做到较写实虚拟人的实时直播,只用一台PC,当然要买张还不错的显卡,就可以驱动虚拟人做直播表演了,这样可以和用户有更全面的交流。更进一步,如果要真正像游戏一样和虚拟人互动起来,就会有更多需要权衡的地方,比如用云渲染的方案,目前阶段的成本会比较高。如果在端上的游戏引擎来运行,一来会增加很大的包空间,如何让用户接受是一大问题;二来端上的算力有限,也无法做到极致的渲染效果。这些可能都需要根据业务的实际情况去做取舍。

LiveVideoStack:腾讯天琴音乐实验室在AI技术驱动虚拟人方面也有所投入,您可以为我们具体介绍下目前的进展和成果吧。

董治:我们在打造一个虚拟人的表演系统,只需提供一个虚拟人的模型,就可以通过AI的方式,呈现出一场完整的音乐表演。比如舞蹈表演方面,我们有音乐驱动舞蹈的算法,可以根据BGM自动生成虚拟人的舞姿。歌唱表演上会再丰富一点,通过歌声合成的算法,可以直接用虚拟人用自己的音色、技巧生成他唱一首歌曲,然后表演上,会根据发音模拟出虚拟人的歌唱口型,同时结合我们研究的表演算法,来加上歌唱时的表情和动作。

有这些还不够,作为一场专业的音乐表演,我们还有一个音乐灯光秀的功能,可以根据音乐的节奏、情感等等去定制虚拟人表演舞台上的灯光、舞美。同时,会参考音乐、虚拟人的表现、灯光的焦点等等,有一个专门的运镜和编导的算法,将这场表演完整的呈现在用户的面前。

而这一切都是基于AI算法,可以极大的降低虚拟人音乐表演的成本,同时提升效果,比如让虚拟人实现各种高难度的表演;另外一个好处是,可以和中之人解绑,避免各类的问题。在表现形式上,我们也在逐步去兼容各种方案,比如异步视频的生成、实时直播、多人互动等等。

我们天琴实验室最近也新推出了自己的首位虚拟人:小琴,在11月的LiveVideoStackCon 2022 北京站大会上,小琴也会把最新学习到的技能,表演给大家看。

LiveVideoStack:据悉腾讯天琴实验室在音乐驱动领域推出了 Music XR Maker 系统,可以为我们介绍下这个系统的主要功能、应用场景吗?

董治:Music XR Maker 是一个更宽泛,更普适的概念。前面提到的我们在AI驱动上的核心能力,它们都有一个共同点,就是通过音乐,用AI的方式,去生成虚拟世界的各项基础元素。

这些能力的底层,基于的是腾讯音乐长期以来建立对音乐信息的强大理解能力,在此基础上发展而来的生成能力。

我们将这些能力汇总起来,建立了 Music XR Maker 的系统,比如通过音乐去生成歌声、舞蹈、口型、表情、动作、灯光、运镜、编导等等,然后这些能力项,可以以更细的粒度,在更广的场景下应用。

比如在全民K歌,最新的KK秀录唱的场景中,就用到了我们的音乐生成口型的能力。还有在QQ音乐Music Zone的蹦迪房间里,有用到音乐灯光秀的能力等。另外,全民K歌也可以依据用户之前唱的歌,自动的去合成一首新歌。

前面提到虚拟人建模方面,其实还有一个问题,就是虚拟人会经常换装,我们 Music XR Maker 具备根据图片来生成虚拟人服饰的能力,极大的节省了美术的工作,在KK秀这种UGC场景会非常适用。

LiveVideoStack:看到您这次将会在LiveVideoStackCon 2022 北京站 腾讯音乐天琴实验室品牌专场「探索娱乐视听技术与体验的新乐章」中做演讲分享,可以为我们稍微剧透下会讲哪方面的内容吗?

董治:我会先系统介绍下 Music XR Maker 系统,以及我们的虚拟人表演生成技术,然后会就虚拟人舞蹈、歌唱表演,以及灯光秀、运镜等技术细节,和大家做一些技术分享和交流。

LiveVideoStack:好的,感谢您接受采访,期待您在11月北京站大会上的精彩分享。

24快报
JSON抓取失败