观点

科大讯飞总裁:发力元宇宙和现实沟通,实现虚拟人多维表达

作为人工智能语音领域的龙头企业,科大讯飞最近宣布新一代语音合成系统SMART-TTS已经能够生成带有11种情感的声音。基于这一进展,科大讯飞总裁吴晓如近日对澎湃科技(www.thepaper.cn)表示,该公司目前已经开始把语音、眼神视线、手势、面部表情结合起来,实现数字虚拟人交互的多维表达,下一步发力的重点将是元宇宙和现实世界的信息沟通。

·“目前已经把语音、眼神视线、手势、面部表情结合起来,实现数字虚拟人交互的多维表达,下一步发力的重点将是元宇宙和现实世界的信息沟通。”

·“机器想更自然地与人类进行交互,需要通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息,AI感知方式必然要从单模态发展到多模态,逐步拟人化。”

人工智能生成内容(AIGC)热潮下,图像内容领域进展神速,而另一个赛道的人工智能生成语音也同样至关重要:如何让机器的声音媲美人类?

作为人工智能语音领域的龙头企业,科大讯飞最近宣布新一代语音合成系统SMART-TTS已经能够生成带有11种情感的声音。基于这一进展,科大讯飞总裁吴晓如近日对澎湃科技(www.thepaper.cn)表示,该公司目前已经开始把语音、眼神视线、手势、面部表情结合起来,实现数字虚拟人交互的多维表达,下一步发力的重点将是元宇宙和现实世界的信息沟通。

904

科大讯飞总裁吴晓如在2022科大讯飞全球1024开发者节上发表演讲。

AIGC支撑元宇宙发展

AIGC与元宇宙的关系,成为科技界越来越关注的话题。在全球疫情的高峰期,元宇宙迅速进入人们的集体意识并受到追捧,但随着这个名词变得“过于时髦”,人们如今对它的看法似乎不像以前那样积极甚至有些看衰。无论怎样,为元宇宙提供动力的技术却一直在加速发展,其中一项技术就是生成式人工智能(generative AI),它使用深度学习神经网络,根据简单的提示产生创造性的概念艺术和其它想法,这些内容被称为人工智能生成内容(AIGC)。

上周,人工智能产品和GPU(图形处理器)制造商英伟达的首席执行官黄仁勋在接受科技媒体VentureBeat采访时称,生成式人工智能将是变革性的,并且变革才刚刚开始。其最大的应用之一可能是与元宇宙有关,因为开发者需要用3D资产来填充虚拟世界,所以对内容有巨大需求。

吴晓如对记者表示,人工智能更多是成为元宇宙发展的支持者,虚拟数字人技术或将是元宇宙落地的先锋。技术上,AI可以提供虚拟形象的展现,并已在生产系统中有一定应用,如金融银行等服务场景中,虚拟人提供的远程交互功能已经成为生产力工具。

今年初,科大讯飞正式启动“讯飞超脑2030计划”。愿景上,第一阶段(2022-2023),该公司将推出软硬件一体的机器人,同期推出专业数字虚拟人家族,担当老师、医生等角色;第二阶段(2023-2025),将推出自适应行走的外骨骼机器人和陪伴数字虚拟人家族;第三阶段(2025-2030),最终推出懂知识、会学习的陪伴机器人和自主学习虚拟人家族,全面进入家庭。

在吴晓如看来,当前人工智能开放平台的三大趋势表现为,人与机器深度协作的虚拟与实体融合,连接终端更加多元化,以及更深度融入医疗、教育、工业等行业场景。

目前,科大讯飞已经展示了多个专业虚拟人和面向未来元宇宙的沉浸式人机交互系统。“目前已经开始在智能化的一些应用上把视觉、手势、视线和语音结合起来,实现数字虚拟人交互的多维表达。”吴晓如在接受澎湃科技在内的媒体采访时说。

在具体规划方面,吴晓如表示,一是要面对场景应用建立场景模型,使科大讯飞AI研究院打造未来行业场景模型时成本更低;二是提供AI+API(应用程序接口,可理解为可公开访问的“接入点”)超级工具,即终端用户能直接上手的智能化工具,如财务报销,人力辅助招聘;三是降低互动式虚拟人成本;四是为实现更低成本、更高效率打造软硬一体化机器人;五是提升隐私和数据安全。

“AI感知方式必然要从单模态发展到多模态”

根据最新的技术进展,科大讯飞新一代语音合成系统SMART-TTS已经能够生成高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺11种情感,每种情感有20档强弱度不同的调节能力。除此之外,还提供了声音的创造能力,让使用者根据自己的喜好调节停顿、重音、语速等。

在11月18日举行的2022科大讯飞全球1024开发者节上,科大讯飞AI研究院副院长高建清曾向澎湃科技在内的媒体介绍这一新的系统。

“机器想更自然地与人类进行交互,需要通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息,AI感知方式必然要从单模态发展到多模态,逐步拟人化。”高建清表示,其中一项关键算法的突破在于,基于无监督学习的预训练框架,使用少量有监督数据进行优化。

具体而言,针对多模语音识别、情感识别等多模态任务,全新的预训练框架对音频、人脸等不同模态的输入“一视同仁”,利用其中内容、表情及身份等信息的关联性进行融合,可设计出不同的训练目标。而少量有监督数据构建码本,让训练机时下降八成,实现实用化预训练。

在声音和虚拟形象生成技术方面,据高建清介绍,目前已经实现了语义可控的声音、形象生成,语义驱动的情感、动作表达。如输入“一头长发”,系统智能生成温柔大方的女性形象,声音端庄又不失甜美;输入“英俊潇洒”,生成有一些商务范的男生形象,声音略带磁性。

通过分析语音中的韵律节奏、语义信息,虚拟人即可据此流畅地切换动作,拥有更加自然的肢体语言。“与传统动作库相比,这套语义驱动的系统在动作拟人度及契合度方面,有明显的效果提升。”高建清说。

高建清透露,科大讯飞AI研究院下一步将发布三款重点产品:第一,2022年首发专业虚拟人,2023年打造数字经济下的虚拟人家族;第二,2023年发布可养成宠物玩具;第三,将在2023年发布青少年抑郁症筛查平台,以免费方式向全国发放。

整体而言,对于接下来人工智能和元宇宙的结合,吴晓如对澎湃科技表示,“未来元宇宙和现实世界作对应交互时,需要完成信息相互沟通,这可能是我们下一步发力的重点。”

24快报
元宇宙技术综述
昨天 22:10
JSON抓取失败