ChatGPT的余温还未散去,OpenAI又震撼发布了新作——GPT-4。北京时间3月15日凌晨,OpenAI公布了其主要大型语言模型GPT的最新版本GPT-4,其在许多专业测试中表现出“人类水平的性能”,此外,百度“文心一言”,也于3月16日在百度北京总部大楼正式发布,又掀起了一波对人工智能的关注。
随着ChatGPT直接升级为更强大的GPT-4 版本,以ChatGPT为核心功能的AI数字人应用场景也迎来了新一轮的革新和升级。
NO.1
ChatGPT加速数字人产业增长
业内人士认为,ChatGPT技术浪潮的到来,有望在短期内将虚拟数字人的交互能力大幅提高,将给整个产业带来更大的想象空间。
根据艾媒咨询数据显示,2021年,中国虚拟人带动产业市场规模和核心市场规模分别为1074.9亿元和62.2亿元,预计2025年分别达到6402.7亿元和480.6亿元。
数字人产业逐渐进入稳定增长的态势,根据量子位预测2030年我国虚拟人整体市场规模将达2700亿元。数字人形象在具有很强的可塑性,结合AIGC 技术和NLP 技术,能够在虚拟主播、数字员工、虚拟偶像等新业态上满足用户的多样化需求,产生巨大市场机会,推动数字人产业的高速发展。尤其在当前以2D 仿真数字人为主的情况下,AIGC 可以提高皮套生成的效率,并且叠加NLP模型后,有望实现AI 驱动的数字人。这将进一步加速数字人产业规模的增长。
Meet Gu 3D Avatar风格化数智达人/图片:网络
NO.2
AIGC赋能下的数字人产业应用变革
过去两年,数字人产业发生了许多变化。
其一,技术进步推动了数字人的形象、表现力和交互的提升,例如使用AI生成技术、3D建模技术、动作捕捉技术和NLP模型等,可以惟妙惟肖地表现人物情绪、动作、语言交流等。
以专业团队创作的服务型数字人为例,2021年的百度AI手语主播和2022年凌迪Style3D的项目“Sarah”相比,拥有超精细皮肤渲染的Sarah在观感和表情细节(甚至包括皱纹)更加接近真人。
从交互看,AIGC强力助攻,AIGC解决了数字人“只会念稿、不能交互”的尴尬,生成算法提高了内容创作的效率和便捷性,降低了成本和门槛,同时还丰富了内容创作的多样性和个性化,满足了用户的不同需求和喜好。
其二,不同类型的数字人(如虚拟偶像、服务型数字人、社交型数字人等)的商业模式逐渐清晰,涉及内容创作、直播互动、广告代言、电商销售等多个领域,场景接受度在提升。
其三,2D仿真数字人在商业上迎来爆发,相比3D建模数字人成本低且应用场景更丰富。
3D建模数字人精美度高,但过高的成本和制作周期导致其在商业化应用上存在一定难度,而2D仿真数字人的制作门槛、周期和成本远远低于3D建模数字人。在市场空间较大的直播带货、娱乐主播、客服和游戏NPC场景下,2D数字人已经足够满足当下的需求,爆发在即。
NO.3
多模态是虚拟数字人的未来
虚拟数字人驱动的最终形态,是实现AI驱动,即用“AI”替换掉“人”所扮演的角色。
但同时也要意识到,AI虚拟数字人在制作成本和技术门槛上仍然大大高于真人动捕员,同时局限于AI目前所表现出的智商水平,目前并不能被广泛使用。
但ChatGPT所展现出来的高灵活度让人们对AI有了新的认知,它比普通的人工智能机器人更加像“人”,相较以往的大模型,它对知识的挖掘要更充分。
具体来讲,ChatGPT是一个通用语言模型,它可以用于许多不同的自然语言处理任务,例如语言翻译、问答、文本生成等。相比之下,普通的虚拟人AI模型通常专注于特定的任务,例如聊天、客服、语音识别等。
同时,ChatGPT还是一种基于无监督学习的模型,这意味着它不需要标记的训练数据即可学习自然语言规律,而市面上大量虚拟人AI模型都需要大量的标记数据才能进行训练。
此外,ChatGPT是目前最大的通用语言模型之一,参数超千亿,比许多传统的虚拟人AI模型要大得多。这使得ChatGPT能够处理更加复杂和抽象的自然语言文本,并生成更加自然流畅的回复。
面对如此惊艳的聊天机器人,业界不禁产生一个设想:将类ChatGPT的大模型依附于虚拟人之上,或更能使虚拟人接近于理想中的形态。
但虚拟人需要做到的显然不仅仅是和人对话那样简单,它还需要表情和动作,针对不同领域的虚拟人还需有不同的专业能力,理解文本、完成对话仅仅只是第一步。
而要解决虚拟人的问题,关键还是在于多模态训练。
多模态指的是不同形态的数据形式。随着算力的提升以及GPT-4模型升级,数字人将输出文字、图像、音视频,甚至细微到情绪表达。在未来构建数字内容的过程中,将真正打造元宇宙数字世界,使数字人集社交、创作、分享能力于一身,有望成为GPT-4推出之后,承载多模态的杀手级应用。