9月20日-23日,2022世界制造业大会在安徽合肥举行,大会由工业和信息化部、科技部、商务部、国务院国资委、安徽省人民政府等共同主办。科大讯飞AI研究院执行院长、语音及语言信息处理国家工程研究中心副主任刘聪受邀出席大会,参加“聚焦元宇宙·一起向未来”为主题的人工智能创新论坛,该论坛由安徽省科学技术厅主办,安徽省人工智能协会、中国工程科技发展战略安徽研究院承办。
主题报告环节,刘聪发表《用人工智能核心技术助力元宇宙健康发展》的主旨演讲,和中国工程院院士、浙江大学工程与计算机图形学研究所所长谭建荣,联想集团副总裁、上海研究院院长毛世杰,京东集团高级副总裁、京东探索研究院院长陶大程,海尔数字科技(上海)有限公司研发中心总经理谈晟,中国科学技术大学地球和空间科学学院教授冷伟,广州视源电子科技股份有限公司首席战略资源官、党委书记段宇,北京的卢深视科技有限公司首席执行官户磊,三七互娱网络科技集团股份有限公司副总裁朱怀敏等业界专家、学者齐聚一堂,围绕元宇宙领域的技术推进、政策制定、人才规划、产业发展等热点话题“华山论剑”。
人工智能助力
元宇宙发展的三大核心技术
1992年,描绘虚拟现实、网络人格等“未来世界”的科幻小说《雪崩》问世,让“元宇宙”的概念首次浮现于人们视野。30年过去,“元宇宙”时代悄然而至。
“就目前而言,‘元宇宙’不是独立的技术、也不是独立的产业,更多的是一个技术性框架”,刘聪认为,以智能人机交互为代表的人工智能技术,是“元宇宙”发展的基础支撑,人工智能的三大核心技术正在助力元宇宙发展:第一,基于多传感器的多模感知能力,第二,结合各类数据和知识的深度理解能力,第三,跨终端界面呈现的多维表达能力。
作为中国人工智能领域的头部企业,科大讯飞在“智能人机交互”领域的技术突破与创新,不断与时俱进。
在感知技术方面,科大讯飞在语音等场景下的单模态算法达到国际领先水平,复杂场景语音识别在国际多通道语音分离和识别大赛CHiME中摘得三连冠,多语种语音识别在NIST组织的多语种识别比赛中所有15个语种22项比赛全部第一。现在,科大讯飞正推动着感知智能技术领域的研究场景不断进入“深水区”,图文识别、智能驾驶等技术屡屡刷新世界纪录。
于此基础上,科大讯飞积极推进从“单模态感知”到“多模态感知”的系统创新,在复杂场景的感知、复杂信息的理解等方面都取得了重大突破。基于多模态语音识别、视线检测等多模态融合技术,科大讯飞推出了“多模态免唤醒交互系统”,交互响应成功率超93%以上、误唤醒率0.01%,目前已在车载场景实现定点生产。此外,实时手势识别技术实现了“凌空手写”,讯飞视线追踪技术实现了“眼神打字”,多模感知算法为用户带来了更多元、更直接、更沉浸的交互体验。
在认知理解技术方面,科大讯飞的机器阅读理解能力不断进化,可以做到先审题后答题。在2019年全球机器阅读理解顶级水平测试SQuAD 2.0中,科大讯飞系统效果首次超过人类平均水平;2017年,讯飞智医助理首次通过国家执业医师考试临床综合笔试,并以456分的成绩超过了96.3%的人类考生,让机器首次具有担任全科医生的能力。
科大讯飞还“解锁”了机器推理的诸多新成就:2022年的CommonsenseQA 2.0常识推理挑战赛中,科大讯飞以76.06%的成绩获得第一;面对特定领域的知识推理,科大讯飞在OpenBookQA科学知识推理挑战赛中刷新最好成绩,成为全球首个超越人类平均水平(91.7%)的单模型。将人类常识和场景化知识等信息整合成“事理图谱”,打造主动交互系统,这样在面对小朋友乱丢玩具时,AI就能从容说出“来收拾一下玩具”,更具人情味。
在多维表达技术方面,科大讯飞结合听感量化编码的语音属性解耦,让语音合成具备调节情绪的能力。同时,科大讯飞还实现了语音合成的一大突破——小样本训练,也就是一句话个性化语音合成。在录制定制化的导航语音包、为虚拟人“复刻”自己的声音等领域,这项技术都大有可为、未来可期。
从2D虚拟形象到3D虚拟形象,依托自身最新的自定义形象生成、多模态语义感知、基于语义的回复对话生成、多维表达等技术,科大讯飞推出了基于语义贯穿的多模态虚拟人交互技术,不仅可以实现虚拟人快速架构,还可提供AI驱动、API接入、多场景解决方案等,提供“一站式”的虚拟形象打造服务。
“以虚助实”元宇宙健康发展
“以虚拟人为载体的新一代人机交互,是‘元宇宙’的关键需求”,刘聪认为,元宇宙不应该沦为资本的奴隶,要朝着健康的方向发展,应当有明确的价值落地标准,如通过具备真实可见的应用案例、能够规模化推广的应用产品、可用统计数据证明的应用成效三大标准来予以衡量。
“面向未来的‘元宇宙’,我们要打造视听触等多通道感知融合的高沉浸人机交互。”刘聪说,人工智能技术的不断进步,会持续提升未来“元宇宙”的体验,带来更沉浸式的感官体验、更丰富多彩的信息内容、更精准高效的信息渠道。“虚拟人行业是‘元宇宙’落地先锋,应当通过‘技术+平台’赋能各类应用,为行业降本增效。”
根据Gartner技术成熟度曲线,10年之内,将有一大批新技术进入成熟阶段,成本大幅下降将加速元宇宙相关产品的商业化。虚实融合是元宇宙的终极形态,刘聪认为,元宇宙要健康发展,应当始终以关注现实世界为初心,以虚助实,用元宇宙来服务于民生和产业发展。
元宇宙如何健康发展?刘聪分享了三点思考:
第一, 人类不应仅是元宇宙的体验者,更应是主导者和设计者。
第二, 元宇宙空间作为技术和数据枢纽,应更多地去做现实世界“需有所为而不可为”的事情,比如对于家庭等场景的智能机器人,很难在现实场景中构建其所面对的各种复杂场景并设计相应方案,但是可以在虚拟世界中通过仿真等方式提升场景覆盖率,并最终将虚拟世界中构建的对应算法结合机器人本体结构应用于真实世界。
第三, 坚持推动数字经济赋能实体经济,以虚助实,发展元宇宙是为了用科技去建设一个更加美好的现实世界。
刘聪介绍,科大讯飞积极响应省领导对元宇宙领域发展“主动拥抱、提前谋划”的讲话精神,未来将持续探索在合适的场景和节点中去拥抱元宇宙带来的产业机会,用先进技术更好赋能元宇宙产业的发展。
目前在实际的应用场景中,科大讯飞的虚拟人技术获得了越来越广泛的应用。
比如,讯飞虚拟人技术已用于线下咨询引导及业务办理等服务,在全国四百多家媒体及企业机构中使用;2022北京冬奥会期间,科大讯飞采用新型的多语种、多模态虚拟人作为“智能大屏”的核心,为赛事量身打造了多语种虚拟冬奥志愿者,支持中英日俄法西6个语种的赛事、赛程、交通、文化、旅游等冬奥知识问答和信息查询。
在2021年第五届全球1024开发者节上,科大讯飞首次发布了虚拟人交互平台1.0,具有“多模感知、情感贯穿、多维表达、自主定制”特点,面向媒体新闻、企业宣传、短视频生产、文旅宣传等场景批量化视频内容生产的需求,可实现虚拟人的语音、口唇、表情、动作等控制,并支持30多种语言及方言的内容生产,满足不同形态不同语种的虚拟人内容生产需求。
刘聪介绍,科大讯飞宣布启动“超脑2030计划”,让人工智能懂知识、善学习、能进化,让AI机器人走进千家万户。该计划将持续打造数字经济下的AI虚拟人家族,为数字经济、虚拟世界和“元宇宙”提供可切实帮助人类,并具备专业知识可定制、可持续进化、有温度等特征的专业机器人。
“元宇宙在教育、医疗、工业等领域都有广阔的应用空间,但发展过程道阻且长,需要各个方面的技术点、产业链通力协作,我们期待与社会各界携手,共同促进‘元宇宙’健康发展。”刘聪表示。