科大讯飞总裁：发力元宇宙和现实沟通，实现虚拟人多维表达_观点_言之有理

观点

科大讯飞总裁：发力元宇宙和现实沟通，实现虚拟人多维表达

来源：澎湃新闻
2022-12-05 09:03

作为人工智能语音领域的龙头企业，科大讯飞最近宣布新一代语音合成系统SMART-TTS已经能够生成带有11种情感的声音。基于这一进展，科大讯飞总裁吴晓如近日对澎湃科技（www.thepaper.cn）表示，该公司目前已经开始把语音、眼神视线、手势、面部表情结合起来，实现数字虚拟人交互的多维表达，下一步发力的重点将是元宇宙和现实世界的信息沟通。

·“目前已经把语音、眼神视线、手势、面部表情结合起来，实现数字虚拟人交互的多维表达，下一步发力的重点将是元宇宙和现实世界的信息沟通。”

·“机器想更自然地与人类进行交互，需要通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息，AI感知方式必然要从单模态发展到多模态，逐步拟人化。”

人工智能生成内容（AIGC）热潮下，图像内容领域进展神速，而另一个赛道的人工智能生成语音也同样至关重要：如何让机器的声音媲美人类？

作为人工智能语音领域的龙头企业，科大讯飞最近宣布新一代语音合成系统SMART-TTS已经能够生成带有11种情感的声音。基于这一进展，科大讯飞总裁吴晓如近日对澎湃科技（www.thepaper.cn）表示，该公司目前已经开始把语音、眼神视线、手势、面部表情结合起来，实现数字虚拟人交互的多维表达，下一步发力的重点将是元宇宙和现实世界的信息沟通。

904

科大讯飞总裁吴晓如在2022科大讯飞全球1024开发者节上发表演讲。

AIGC支撑元宇宙发展

AIGC与元宇宙的关系，成为科技界越来越关注的话题。在全球疫情的高峰期，元宇宙迅速进入人们的集体意识并受到追捧，但随着这个名词变得“过于时髦”，人们如今对它的看法似乎不像以前那样积极甚至有些看衰。无论怎样，为元宇宙提供动力的技术却一直在加速发展，其中一项技术就是生成式人工智能（generative AI），它使用深度学习神经网络，根据简单的提示产生创造性的概念艺术和其它想法，这些内容被称为人工智能生成内容（AIGC）。

上周，人工智能产品和GPU（图形处理器）制造商英伟达的首席执行官黄仁勋在接受科技媒体VentureBeat采访时称，生成式人工智能将是变革性的，并且变革才刚刚开始。其最大的应用之一可能是与元宇宙有关，因为开发者需要用3D资产来填充虚拟世界，所以对内容有巨大需求。

吴晓如对记者表示，人工智能更多是成为元宇宙发展的支持者，虚拟数字人技术或将是元宇宙落地的先锋。技术上，AI可以提供虚拟形象的展现，并已在生产系统中有一定应用，如金融银行等服务场景中，虚拟人提供的远程交互功能已经成为生产力工具。

今年初，科大讯飞正式启动“讯飞超脑2030计划”。愿景上，第一阶段（2022-2023），该公司将推出软硬件一体的机器人，同期推出专业数字虚拟人家族，担当老师、医生等角色；第二阶段（2023-2025），将推出自适应行走的外骨骼机器人和陪伴数字虚拟人家族；第三阶段（2025-2030），最终推出懂知识、会学习的陪伴机器人和自主学习虚拟人家族，全面进入家庭。

在吴晓如看来，当前人工智能开放平台的三大趋势表现为，人与机器深度协作的虚拟与实体融合，连接终端更加多元化，以及更深度融入医疗、教育、工业等行业场景。

目前，科大讯飞已经展示了多个专业虚拟人和面向未来元宇宙的沉浸式人机交互系统。“目前已经开始在智能化的一些应用上把视觉、手势、视线和语音结合起来，实现数字虚拟人交互的多维表达。”吴晓如在接受澎湃科技在内的媒体采访时说。

在具体规划方面，吴晓如表示，一是要面对场景应用建立场景模型，使科大讯飞AI研究院打造未来行业场景模型时成本更低；二是提供AI+API（应用程序接口，可理解为可公开访问的“接入点”）超级工具，即终端用户能直接上手的智能化工具，如财务报销，人力辅助招聘；三是降低互动式虚拟人成本；四是为实现更低成本、更高效率打造软硬一体化机器人；五是提升隐私和数据安全。

“AI感知方式必然要从单模态发展到多模态”

根据最新的技术进展，科大讯飞新一代语音合成系统SMART-TTS已经能够生成高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺11种情感，每种情感有20档强弱度不同的调节能力。除此之外，还提供了声音的创造能力，让使用者根据自己的喜好调节停顿、重音、语速等。

在11月18日举行的2022科大讯飞全球1024开发者节上，科大讯飞AI研究院副院长高建清曾向澎湃科技在内的媒体介绍这一新的系统。

“机器想更自然地与人类进行交互，需要通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息，AI感知方式必然要从单模态发展到多模态，逐步拟人化。”高建清表示，其中一项关键算法的突破在于，基于无监督学习的预训练框架，使用少量有监督数据进行优化。

具体而言，针对多模语音识别、情感识别等多模态任务，全新的预训练框架对音频、人脸等不同模态的输入“一视同仁”，利用其中内容、表情及身份等信息的关联性进行融合，可设计出不同的训练目标。而少量有监督数据构建码本，让训练机时下降八成，实现实用化预训练。

在声音和虚拟形象生成技术方面，据高建清介绍，目前已经实现了语义可控的声音、形象生成，语义驱动的情感、动作表达。如输入“一头长发”，系统智能生成温柔大方的女性形象，声音端庄又不失甜美；输入“英俊潇洒”，生成有一些商务范的男生形象，声音略带磁性。

通过分析语音中的韵律节奏、语义信息，虚拟人即可据此流畅地切换动作，拥有更加自然的肢体语言。“与传统动作库相比，这套语义驱动的系统在动作拟人度及契合度方面，有明显的效果提升。”高建清说。

高建清透露，科大讯飞AI研究院下一步将发布三款重点产品：第一，2022年首发专业虚拟人，2023年打造数字经济下的虚拟人家族；第二，2023年发布可养成宠物玩具；第三，将在2023年发布青少年抑郁症筛查平台，以免费方式向全国发放。

整体而言，对于接下来人工智能和元宇宙的结合，吴晓如对澎湃科技表示，“未来元宇宙和现实世界作对应交互时，需要完成信息相互沟通，这可能是我们下一步发力的重点。”

科大讯飞总裁：发力元宇宙和现实沟通，实现虚拟人多维表达

关键词

相关阅读

工业元宇宙未来市场空间巨大

什么是元宇宙电商？它的未来前景怎么样？

深扒元宇宙：一个世纪前的科幻概念，为何今天大火？

利好消息密集催化，元宇宙行业巨头不断释放潜力（附强势股池）

元宇宙究竟是真的未来互联网方向还是前景泡沫？

岭南股份与腾讯建立元宇宙业务全面战略合作关系

元宇宙电商：奈雪也玩起了元宇宙？

在元宇宙招聘平台举办招聘会，山东做到了！

元宇宙呈现七大趋势，哪个最戳中你？

元宇宙是概念炒作？

24快报

《AI元宇宙创新示范100强案例集》VR大空间专辑发布首批20个入围

上海徐汇区加速元宇宙领域布局打造社区元医空间

内蒙古建设元宇宙技术研发平台，打造3-5个高水平未来产业先导区

蹭元宇宙、蹭阿里巴巴，这家神秘的元宇宙企业有大问题

OpenAI 探索在其 AI 产品中进行广告业务

元宇宙技术综述

福田区企业服务中心智能数字人“小福”建设项目（A）招标公告

数字郑州：申请基于数字人控制Web页面的交互展示方法及系统专利

元宇宙再现深海世界，探秘国风美学

青岛位列数字经济百强市第十三位，数字经济核心产业占全省近三成

OpenAI成本压力巨大，进军广告业，寻求新收入来源

北京市丰台区数字经济加速升级，元宇宙领域崭露头角

瑞银发布调查：苹果AI手机功能遇冷，市场需求不振

“AI教母”李飞飞创业公司公布“空间智能”成果：单图生成3D互动

英特尔CEO因未实现扭亏目标离职，AI领域发展严重受挫

2024年元宇宙与XR领域融资骤降，加密行业逐步回暖

黄山市深化“人工智能+文旅”，搭建智能数字场景，推出沉浸式体

花房集团遭取消上市地位，周鸿祎的“娱乐元宇宙”何去何从？

AI元宇宙，复骨又入脑——“青领杯”大学生创新创业大赛山西省赛

“中国第一水乡”周庄打造文旅元宇宙新体验，已搭建元宇宙数字场