文 /VR 陀螺 豌豆
AIGC(生成式人工智能)在全球范围内火了一把,据瑞银发布的一份研究报告显示,自 ChatGPT 推出两个月后,月活跃用户估计已达 1 亿,成为历史上增长最快的消费应用。
图源:Google Trends
创造了多项 " 神话 " 的 AIGC,一度引发全民对 " 被替代 "" 被失业 " 的担忧,以快速成长的 ChatGPT 为代表的大模型自然也受到了各企业的关注,百度推出 " 文心一言 " 以来,大模型遍地开花,包括华为、阿里、京东、商汤等科技公司陆续推出了各自的大模型项目。
面对日益兴起的 AIGC,国家互联网信息办公室就《生成式人工智能服务管理办法(征求意见稿)》(以下简称《征求意见稿》)向社会公开征求意见。整体来看,《征求意见稿》更多的是为规范我国人工智能、算法等行业的发展带来了更为细致且明确的规范指导。
AIGC 有着能在各行各业赋能的强大功能,ChatGPT 富有创造性的对话让人不禁遐想,在元宇宙时代,数字人将成为非常关键的角色,AIGC 与数字人的结合又会对现实世界带来怎样的变化?
数字人走向各行各业,AI 方向前景广阔
据 IDC 发布的《中国 AI 数字人市场现状与机会分析 2022》报告中,预计到 2026 年中国 AI 数字人市场规模将达到 102.4 亿元人民币。可见 AI 数字人前景之广阔。
图源:IDC
数字人最初应用于影视、游戏行业,随后落地到各行各业,在应对更复杂的情况时,人们对数字人的信息处理能力、即时互动能力以及表达能力等需要有更高的要求。
陀螺研究院发布《2023 年全球虚拟数字人产业报告》,其指出虚拟数字人的每个发展阶段与时代背景,技术有紧密联系,至今已迈入成长阶段,2023 年 Open AI 推出的聊天机器人 ChatGPT,与真人之间展开 " 灵活机智 " 对话,给由 AI 驱动的虚拟数字人描绘了极大创作及交互想象空间,伴随着 ChatGPT 成熟应用,虚拟数 " 智 " 人将走向大众生活。
图源:陀螺研究院
如今 AI 对传媒、影视、艺术、电商、娱乐、游戏等领域已经产生了重要的影响。数字人需要更智能、更人性化,有更真实的表现力。
AI 赋能数 " 智 " 人,加速打破次元壁
如果好看的外形是数字人的 " 名片 ",那么 AI 将成为数字人的 " 内核 "。AI 赋能数字人,未来能实现文本生成、音频生成、图像生成、视频生成、3D 模型生成等功能,延伸到多模态交互功能,进而实现跨维度升级。
在外形方面,AI 技术几乎渗入到数字人构建的各个基础环节:建模、生成、渲染、驱动、呈现、交互等方面,目前已经能呈现高保真的 " 人类 " 外形,也能做出流畅的肢体语言,如虚幻引擎的 Metahuman 和数年前三星演示的 NEON 数字人。
NEON 数字人(图源:网络)
为了提高数字人的真实度,前段时间英伟达更新了其 Omniverse 的 AI 能力,并宣称将进一步引入对生成式 AI 的支持,用户可以仅凭文本信息自动生成高质量的材料。这一特性在 Omniverse 的声音驱动面部表情的工具 Audio2Face 上面也有体现。
高保真 AI 数字人(图源:英伟达)
为了演示 Omniverse 的新特性, Adobe Substance 3D 艺术和开发团队使用 Omniverse USD Composer(前称 Create)合作创作了一个虚拟数字人形象。从视频可以看到,里面的虚拟角色视效逼真,并且皮肤呈现了真实的光线效果,而生成式 AI,则提升了面部表情以及唇形同步的质量。相关阅读:《AI 含量极高,GTC 2023 有何新动态?》
在数字人制作方面,AI 的接入让其生产成本进一步降低。
3 月,腾讯发布全新的 AI 智能创作助手 " 腾讯智影 ",智影数字人能实现 " 形象克隆 " 和 " 声音克隆 ",创作者通过上传少量图片、视频和音频素材,就能得到自己的数字人分身和定制音色,进而快速生成自己的数字人播报视频。据介绍,腾讯智影还接入了数字人直播,可实现 7 × 24 小时不间断开播。
来源:腾讯智影
商汤科技在 4 月的技术交流日活动上发布了大模型体系 " 商汤日日新大模型 ",其演示了 2D 数字人视频生成平台 " 如影 SenseAvatar",据称仅需一段 5 分钟的真人视频素材,就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。它可应用为智能直播、教学、短视频等多种场景。
来源:商汤科技
在功能方面,结合 ChatGPT 的数字人不仅能完成更细致的指引、导航等信息提示服务工作,结合庞大的知识数据库,在 B 端如金融、汽车、工业等场景以及 C 端的影视、游戏、直播等领域将有更大的发展空间。
另外,OpenAI 于今年 3 月发布了多模态预训练大模型 GPT-4,ChatGPT 的功能有了进一步提升:拥有识图功能;扩大文字输入限制至 2.5 万字;对话内容准确性提高;能生成有风格变化的创意文本等。多模态功能将使数字人的交互、决策建议更为真实有效。
人人都能实现 " 数字永生 "
ChatGPT 发布后,大量 AI 工具顺势而生,在一些 AIGC 的门户网站上甚至收录了海内外上千款 AI 应用。包括搜索引擎、文本写作、聊天机器人、语音合成、音乐制作、绘画生成、图像化身、图像合成、3D 生成、视频技术、数字虚拟人、游戏应用、无代码创作等 40 个细分领域。几乎人人都能创建符合自己需求的数字人。
图源:AIGC 中文工具导航截图
得益于这些 AI 工具强大的内容生成能力,现在网上也出现了不少 " 整活 " 尝试。
前阵子 AI 在 B 站上掀起一阵华语乐坛的 " 赛博文艺复兴 " 热潮,不少 UP 主利用音乐大模型软件,通过内容编码器提取源音频语音特征,进行 AI 翻唱制作,让歌手 " 唱 " 起来。与 B 站 " 鬼畜区 " 的人力调音不同,AI 翻唱的效果非常真实自然,实际一听几乎难以分辨出是真人还是 AI 的声音,甚至还能看到视频中有不少弹幕讨论起 AI 唱功好不好……
图源:B 站截图
另一方面,也有人在尝试证明 AI" 技术向善 "。UP 主吴伍六发布了一则名为 " 用 AI 工具生成我奶奶的虚拟数字人 " 的视频,他尝试用 AI+ 照片、音频来生成已故奶奶的数字人,并与之进行虚拟对话。
前两年韩国 MBC 电视台在出品大型 VR 纪录片《见到你了》中,利用 VR 技术复活了 7 岁小女孩。
图源:网络
通过 AI 语音合成技术,提取小女孩生前影像音频。同时找来 5 个同龄的孩子录制上百条音频作为补充,最终复原成功小女孩的声音。再结合 3D 建模,动作捕捉等技术抓取三维坐标数据,初步还原小女孩外形。相关阅读:《VR 扫墓,数字永生,技术正在重新定义 " 生命 "》
在现实中不可能做到的 " 复活 " 和 " 永生 ",却能通过技术得以实现,这类视频引发了网友们对 AI、生命、侵权、感情、寄托、人性和伦理道德的思考和讨论,展现不同人对数字生命的理解。
I 数字人在直播领域悄然生长
在元宇宙中数字人已经是有着较为成熟体系的领域,从技术到实际落地再到商业化,如今虚拟偶像、虚拟演唱会等垂直场景大行其道,而数字人直播已不是新鲜事。
图源:IDC
在数字人商业化的道路中,无论是主打陪伴的娱乐型数字人还是以电商带货为主的功能服务型数字人,AI 数字人在直播中的应用率正逐渐提高,然而现阶段的数字人直播,绝大多数情况下,包括外形设计、配音、互动等都仍需要人类进行干预,AI 只能实现一些简单的交互。
在海外已有基于 ChatGPT+VRM(3D 模型)+VOICEVOX(文本转语音软件)创建聊天型人工智能的案例。例如 OshaberiAI,这是一款允许用户创建养成型角色并与之聊天的应用程序,通过设计对 ChatGPT 的提示(指令),为数字人设定各种个性和语气,与用户进行简单的聊天交互。
图源:推特
目前该应用已上线 AppStore,此前该开发者也在 AR+ 数字人导航方面做了一些尝试,推出了 "ARCharaNavi",用户在应用中设定好目的地之后,数字人会根据选择好的路线在屏幕中的路线前方带领用户前行。
而 AI 数字人的强大胜在可控性高,模式可复制,能 7 × 24 小时保持在线,在直播领域成了不少电商品牌的 " 新欢 "。
中国互联网络信息中心日前发布的第 51 次《中国互联网络发展状况统计报告》显示,截至 2022 年 12 月,中国网民规模达 10.67 亿,短视频用户规模达 10.12 亿,短视频用户渗透率高达 94.8%,而网络直播用户规模达 7.51 亿。
有了庞大的直播受众,投身于电商直播的 AI 数字人表现如何?成本低是品牌方选用数字人进行直播的一大因素,某品牌直播间售价和数字人服务定价,粗略计算后日均花费大约在 600 元左右,相比于聘请真人主播,能大幅减少支出成本。
目前在电商直播领域,AI 数字人通常在夜间至凌晨直播,弥补真人主播休息期间的空缺,尽可能获取更多闲时流量。现阶段用户可以通过关键词触发与数字人关于商品的交互,要让 AI 数字人执行更细致的指令和互动还有一定难度。
图源:抖音网页版截图
而在短视频平台,已有不少 AI 数字人尝新开设全天无休的直播间,实际上这类重复相似对话内容的直播间热度并不高,如果有明星 IP 加入,则会带来更显著的引流效果。例如乐华七子的黄新淳,基于他本人的形象设计了数字人分身,结合 AI 算法来控制数字人的动作和表情,还能正常与粉丝进行互动。
AI 数字人在视觉效果和语音上越发真实,也就意味着人们将更加难以辨别真人与 " 数字人 ",且绝大部分人是第一次接触 AIGC 内容,为了避免更多的 AI 内容对观众造成误解,不少视频平台发布了相关平台规范。
抖音 APP 官方公众号于近期发布《抖音关于人工智能生成内容的平台规范暨行业倡议》一文,指出 " 各生成式人工智能技术的提供者,均应对生成内容进行显著标识,以便公众判断。同时使用统一的人工智能生成内容数据标准或元数据标准,便于其他内容平台进行识别。"
图源:抖音 APP 官方公众号
就连海外知名插画平台 Fanbox 的运营商 PixivFANBOX,也宣布禁止上传和销售使用 Midjourney 、Stable Diffusion 等 AI 艺术工具生成的插图,将对发布由 AI 创作作品的账号采取措施,如发出警告、限制可见范围、封禁账号等。未来将会有更多平台自发加入规范 AIGC 内容的阵营中。
AI 数字人在直播领域,尤其是电商板块的落地进程加快,其变现能力强、操作门槛低(不少平台推出无代码方案)、降本增效显著等优势迎合了品牌方对数字化电商直播的需求。同时,部分头部电商直播 MCN 也能凭借自身在 IP 运营管理、平台流量资源、品牌方资源的积累,尝试从真人直播转向数字人直播,提高闲时阶段的收益。现阶段的 AI 数字人仍有非常大的发展空间。
结语
在元宇宙盛行的时期,数字人还只是人们眼中的 " 流量明星 ",背后又牵扯到高成本的动捕和中之人运营,普通人几乎难以企及。虽然现阶段的 AI 数字人仍然未达到能跟真人 " 抢饭碗 " 的能力,但成长迅速的 AI 正在加速数字人走向大众的进程,而 ChatGPT 则是 AI 数字人最佳的接入口之一,为数字人的人机交互功能带来更多落地应用机会。