9月27日,中国科技产业智库「甲子光年」在线上成功举办了「甲子引力X」元宇宙峰会,上海信息服务业行业协会为本次大会的支持单位。会上,商汤科技数字文娱事业部总经理栾青以“元宇宙的AI引擎”为主题发表了演讲。
演讲中,栾青谈到,从现实世界走向虚拟世界,面临着“内容变得越来越难制作”的巨大挑战。而通过商汤的SenseMARS平台,能够快速创建、驱动虚拟人,并让虚拟人更智能。
以下是演讲实录:
大家好,我是来自商汤科技的栾青,感谢甲子光年的邀请。今天为大家介绍一下商汤科技作为一家人工智能平台公司,我们在元宇宙世界构建的过程中所做的一些事情。我今天的演讲题目叫《元宇宙的AI引擎》。
首先我简单介绍一下商汤科技,商汤科技是一家人工智能平台型公司,我们一直以坚持原创,以“让人工智能引领人类进步”为我们的使命。通过人工智能的原创和平台型技术,赋能各行各业。
元宇宙,并不是一个新的概念,它是在1992年一本科幻小说中提到的概念。在这个小说中,它描绘了一个新的世界,我们每个人会以一个虚拟的Avatar的形式,走向三维的数字世界。在这个数字世界里,我们和其他的朋友以Avatar的形式进行交互,而各类服务以数字digital agent,也就是数字人的形式进行交互。
这个世界中,创新之处来自于它是互联网的继任者,也就是说我们下一代互联网的一种潜在的形态。互联网会由二维升为三维,它对应的信息承载能力和它的沉浸感都会更加强大。
其实这十几二十年,我们大家一起经历了互联网不断升维的历史过程。
在一九九几年,我们很多人经历的互联网,是一种一维的文字形态来承载的互联网。比如我们常常发的短信,经常看的BBS。但随着我们底层设施的不断提升,我们的网络传输能力从1G、2G变到了3G,大家日常的信息载体也从一维形态变为二维,也就是我们常常看到的视频、图片等等的形式。
随着我们的互联网从3G升到了4G,互联网也增加了一个新的维度,就是时间的维度。有了时间维度之后,我们可以随时随地感受和体验互联网——移动互联网就此诞生。视频从长视频变成了短视频,我们日常的社交也变成了视频居多。
这之后,我们继续期待一个新的互联网形态的诞生。
于是,新的升维就来自于立体维度的提升。因为人类天生是一个三维的动物,天生所感受的世界就是三维的、无限景深的、360度的。在这个世界里,我们的信息可以有更丰富的承载空间。所以,随着我们互联网从4G变到了5G,甚至更高,我们的载体可能也会从手机变成新型的载体。我们下一维的互联网呼之欲出。
随着这一系列的变化,带来我们下一维的Metaverse——元宇宙——应运而生了。
在元宇宙里,宇宙的概念包含着一系列底层基础设施的提升。我们经常看到超大型计算和存储网络,多人同步的网络连接与内容,以及人工智能所构建的真实世界与虚拟世界的连接。再上层就是我们常见的各种硬件层,包括现在大家就已经常用的手机、电脑,以及潜在的VA/AR眼镜,甚至脑机接口、全息投影等等。
在这些设备上,我们会看到OS层以及三维引擎层。整个元宇宙是一个沉浸式的三维世界,我们需要一个更加强大的渲染引擎来支持这样的三维世界。
那再往下会是什么层呢?前面这几层其实跟我们现在看到的游戏,以及我们现在的移动互联网并没有本质区别。所以再上层就应该是社交应用层。包括社交应用、办公应用等等。
其实,这中间有一个巨大的挑战,整个世界从二维升为到三维之后,它的内容变得越来越难制作。我们想拥有更丰富的内容,就需要非常多专业的人来制作内容,不可能每一个公司都像一个游戏公司或者电影制作公司一样,组建一个庞大的团队、耗时几年来制作这样的三维内容。这个时候该怎么办呢?人工智能是不是可以帮到这一点呢?
其实我们看待人工智能究竟能做什么的时候,我们可以想象人脑能够做什么。人工智能它的核心在于模拟了人脑处理信号的过程。
大家常见的人脑所做的事情,主要是分析和理解。比如我们看到一个,可以认识这个人;我们看到的场景和物品,可以认识场景和物品,这个是我们人脑的一个非常非常厉害的能力。但是我们人脑还有另外一个能力,就是内容生成能力,包括人物的内容生成能力、虚拟场景的内容生成能力。
这是一个什么能力呢?其实这个能力我们并不陌生,每天晚上大家做梦的时候都可以非常真实地还原出这个世界,甚至有的时候都不能分辨它是真实还是梦境。优秀的画家也可以绘画出非常真实的人物和场景。所以人工智能另外一个重要的能力就是内容生成。
大家看到现在AI主流的应用主要在分析和理解的部分,我们商汤一个核心的能力,也就是我们SenseMARS 平台所提供的能力,主要就在内容生成的这个部分。我们希望通过人工智能生成内容,也让AI帮助大家更好的构建三维世界,降低我们构建三维世界内容的门槛。
刚才大家看到我们在整个Metaverse元宇宙的构建中有三个重要的元素,第一个Avatar,也就是我们在虚拟世界自己的一个代表。另外一个是digital agent,也就是我们的数字人。我们怎么样在虚拟世界里拥有更加友好的、更拟人的interface,这个就是数字人所带来的不同体验。
最后一个就是我们三维世界的构建,整个三维的世界会以一个什么样的方式快速构建起来呢?AI也同样为大家提供了新的解决方案。
首先,我们来讲一下人工智能所能帮到大家所做的第一件重要的事情,人物的生成以及人物智能构建。
其实人物的生成在传统生成工艺当中,有非常多的步骤。
比如第一步我们需要将模型建立出来,包含非常多美学的设计,以及我们对原始真实世界信息的参考。在这之后我们要经历各种各样的绑定、蒙皮,以及动捕、驱动等。如果我们希望它拥有智能,我们又需要一个庞大的体系来构建背后的知识体系库。
我们用AI去构建的时候,同样包含了三步,它的区别在于AI是自动化完成的。比如说我们可以通过一张照片来构建大家的三维模型。我们通过AI智能美化,将它变成我们希望的美的样子。我们通过各种各样的虚拟试穿试戴,可以让真实的人跟虚拟的内容去进行互动。同时,我们将AI的各种各样驱动使大家不用用动捕的设备,不用专业的影棚就进入到虚拟的世界当中,并且通过AI的各种各样已经拥有的一系列的知识库帮助大家快速地构建和拥有智能服务体系。
商汤的数字人生成平台会帮助大家用简单的一张或者多张照片,生成不同风格的数字人。这里简单展示了一下我们构建的过程,大家不用去影棚,可以用单反相机,或者甚至是我们的手机,通过多张照片或者单张照片的拍照,生成高精拟真的,还原度非常高的数字人模型。
这个是我们通过建模之后AI美化的效果,通过AI的美化,可以将它的皮肤、脸部的形态,以及头发还有身上的衣着添加上去,这样我们就拥有了一个完整的人物形态。这里我们也展示了目前我们平台上支持的各种人物形态,未来我们会不断扩充常见的风格。
那下一步怎么让人动起来呢?首先我们需要将这个人物通过一个简单的方式驱动,常见的方式包含我们用身体和我们的脸去驱动,当然更简单的方式是我们是可以用文字直接让它驱动起来的。
比如说在这里面,我们建模后的数字人可以通过文字的方式,将它的身体和表情配合起来形成动画。拥有了这样的能力之后,我们就可以用智能去完整地驱动数字人进行服务。大家看到的就是我们平台上生成的数字人,自动拥有的文字语音驱动的能力。
在这之后,我们常说的“中之人”也可以到我们的平台上来去进行人物的半身的驱动。通过一个简单的RGB摄像头,就可以将自己的数字人驱动起来,它可以拥有相对比较精细的手指、脸部和肢体的动作。于是我们不用专业的设备,也可以进入到虚拟的世界中。
通过我们平台生成的数字人有一个比较大的特点,一是有非常高的精度,另外它可以自动绑定,让脸部拥有非常精细的表情,完全可以胜任日常常见的各种数字人应用。其实我们现在的这个模型,就是用一个RGB摄像头,后面有一位人在驱动的。除了可以做精细化的脸部驱动之外,另外一个我们提供给大家的能力就是大家可以用一个非常简单的视频,比如说像右上角这样的视频,就可以制作精美的舞蹈视频效果,或者在元宇宙的世界里直接让它进行表演。使得以前我们可能要专业的动捕设备才能做的这样一些精美的画面,也可以由普通人来制作。
除此之外,我们SenseMARS平台还提供完整的NLP和知识库解决能力,让回答更加智能,也让声音通过主体人识别、音人分离等等的技术更加的清晰。
大家刚才看到了我们三维数字人的构建,以及智能构建的一系列的过程,下面我为大家介绍的是我们的另外一个核心的模块,就是三维世界的虚拟化构建。
人工智能所做的一个事情有一个特点,就是我们把用专业的设备,或者用专业的技能才能做的许多事情,变成我们普通的设备、常见的民用方式都可以做一些工作。
大家看到我们三维世界的重建,也秉承了这样的一个特点。大家使用普通的手机,或者全景相机,就可以进行内容的拍摄了。拍摄之后通过我们平台,可以快速生成这样的三维世界。
除了构建三维世界之外,另外一个人工智能的能力就是将这些已经构建好的模型进行自动化的分类,我们可以将比如说在这个视频中的树木、楼宇还有我们的土地以及河流的区域自动的标注起来。这样的话,我们区域自动化的资产管理就变成了可能。
我们还可以对这个内容进行自动化的分析,比如左边看到的这样的塔台,我们可以自动分析出三维重建后天线的角度和方位,以确定天线是否在正确的区位上。此后,我们可以预估出它是否能很好地对周围进行信号的覆盖。这就是人工智能三维重建后,给大家带来的额外的价值。
除此之外,我们还可以与真实的摄像头结合。摄像头就和我们三维世界的数字孪生的管理形成了一体。当我们发现真实世界中出现了不同问题,我们快速到虚拟世界中进行全场景的分析,使得我们对整个场景、园区、工厂的管理更加智能化。
这个场景是我们在冬奥会上为水立方所做的一个沉浸式体验,不光可以用AR的效果带来不一样的观赛的体验,还可以通过三维的定位方式,将场景中的冰壶进行速度和摩擦系数的分析,使参赛运动员可以快速了解地面情况,帮助他们下一个球打得更好。
所以,三维世界的各种应用,不光能够让我们有沉浸式体验,更重要的是我们将三维世界所有的内容进行数据化,以做更好的分析,并引导我们下一步行动。
在元宇宙中,大家看到了几个主要应用,我们还做了非常多的拓展应用。比如说大家常见的数字藏品,我们也通过AR的方式将它与实体的物品进行结合,真实的世界与虚拟的世界更好地联系在一起。又比如说我们今年跟敦煌研究院一起合作的一款敦煌宇宙的数字藏品。
大家可以看到我们通过这样的底座扫描,我们走进这个穿越门之后,就会“真实地”走到敦煌的257窟的洞中。在疫情中,可能大家很难再去旅游,去自己想去的地方。敦煌的257窟,为了文化的保护,很多这种传统的区域,也会被保护起来,可能普通的游客就没有办法再进行游览。但是通过元宇宙穿越的方式,大家可以再次体验整个文化给我们带来的震撼。在这个体验的同时,将我们敦煌千年之前最精美的颜色和精细度恢复到我们整个的体验当中来。这样,大家就看到敦煌千年一瞬整个变化的过程。
我们相信这是元宇宙世界可以给我们真实世界带来的不一样的震撼体验。
类似的技术我们还可以用在我们日常的很多体验当中,比如说数字的名片。名片现在变成大家社交过程中的一个仪式了,越来越少人将它的实体留存下来。但是如果我们拥有这样一张名片,它不光能看到我们公司最新的宣传的视频,还可以直接在上面打电话或者发邮件给对应朋友呢?将我们实体的物品再次的激活,变成了一个全新的媒体入口。同样的技术,我们除了可以做名片,还可以做我们办公室的工牌、议室的入门牌。这样的话,也节省了很多纸张,以及企业的运营成本。
元宇宙还可以为我们带来很多其他的应用,比如说虚拟展示空间,虚拟会议大厅等等。我们通过元宇宙三大模块AI化的技术能力,提供在人、物、场三个方向的赋能平台,我们也希望通过AI构建元宇宙底座,为各行各业赋能。
可为自由创造的虚拟世界不是法外之地,与被道德、法所约束的真实世界之间的融合发展,还需要我们通过产业实践和社会实践不断地丈量,并弥合科技发展与社会伦理的鸿沟。