近日,元宇宙AIGC热潮大起,智能图像内容领域精彩纷呈。但古往今来,声色并茂一直都是二者不可或缺、相辅相成,所以另一个赛道——人工智能生成语音也是至关重要的一大领域。说到AI,大家脑海里第一反应就是发声冰冷、僵硬的电子音,不带一丝一毫的情感,显得不近人情。所以进一步的语音智能赛道重心就是“情感丰富”。
据澎湃新闻报道,作为人工智能语音领域的龙头企业,科大讯飞最近宣布新一代语音合成系统SMART-TTS已经能够生成带有11种情感的声音。并且近期科大讯飞总裁吴晓如向记者表示,该公司目前已经开始把语音、眼神视线、手势、面部表情结合起来,实现数字虚拟人交互的多维表达,下一步发力的重点将是元宇宙和现实世界的信息沟通。
AIGC是元宇宙发展支撑点
“元宇宙”这个词自出现后,一直备受关注,人们也对其充满期待。但当下全球疫情达到峰点,且整个大环境和经济相比之前低迷很多,国外多数科技巨头纷纷曝出裁员报道,惊人的数字使得人心动荡,人们对于元宇宙的态度也逐渐由积极转向消极,不再那么看好。但无论如何,这些都阻挡不了元宇宙快速发展的步伐。为元宇宙提供动力的技术一直在加速发展,其中一项就是生成式人工智能,而这个技术所生成的内容,则被称为最近很火的名词“AIGC”。
AIGC可作为元宇宙发展的支撑点。它可以更深度融入医疗、教育、工业等行业场景,连接终端实现多元化,让人与机器实现深度协作的虚拟与实体融合,真正实现高效低成本的利民便捷。
AI不再冰冷无情,将极富情感
面对毫无感情的机器,有一些场景使用真的很难让自身代入其中。所以为解决这一问题,科大讯飞在技术上有了新的大飞跃。
根据最新的技术进展,科大讯飞新一代语音合成系统SMART-TTS已经能够生成高兴、抱歉、撒娇、严肃、悲伤、困惑、害怕、鼓励、生气、安慰、宠溺11种情感,每种情感有20档强弱度不同的调节能力。除此之外,还提供了声音的创造能力,让使用者根据自己的喜好调节停顿、重音、语速等。
据报道介绍,科大讯飞新一代语音合成系统SMART-TTS可根据简单的词汇描述直接分析生成相应的声音,如输入“一头长发”,系统智能生成温柔大方的女性形象,声音端庄又不失甜美;输入“英俊潇洒”,生成有一些商务范的男生形象,声音略带磁性。
并且,除了以上语气情感调节以外,还将同步流畅地切换动作,让整体都更加协调自然。实现视觉、听觉两大感官最直接体验,逐步拟人化。在技术逐步成熟中,AI感知方式必然要从单模态发展到多模态。
科大讯飞AI研究院副院长高建清透露,科大讯飞AI研究院下一步将发布三款重点产品:第一,2022年首发专业虚拟人,2023年打造数字经济下的虚拟人家族;第二,2023年发布可养成宠物玩具;第三,将在2023年发布青少年抑郁症筛查平台,以免费方式向全国发放。
由此可见,现下已完成了人工智能和元宇宙的结合,而未来元宇宙的应用避免不了与人们的直接交流沟通,所以科技巨头下一步技术发展的重点将是攻克元宇宙虚拟与现实相互沟通的难题。照目前的的速度,这一天不会太远,一起期待更多元宇宙新技术发布的好消息。