深度报道

科大讯飞研究院:AI攀登者,一直在路上

2022年年初,科大讯飞吹响了未来10年战略布局的号角,正式对外发布“讯飞超脑2030计划”(下文简称“超脑2030计划”),在不同的阶段推出不同功能的机器人和虚拟人,让“懂知识、善学习、能进化”的AI走进每一个家庭,用技术去关怀人、热爱人、温暖人、成就人。

告别2022,你的答卷是什么?

对于17岁的科大讯飞研究院(下文简称“讯飞研究院”)来说,这是踏上“AI新征程”的一年,春天发布的“讯飞超脑2030计划”点燃了未来十年梦想的火种,让机器人走进每一个家庭;这是延续“AI源动力”的一年,通过系统性创新,用技术赋能教育、医疗、车载等千行百业;这是“AI科技树”茁壮成长的一年,用“板凳甘坐十年冷”的平常心,夺得15项全球人工智能竞赛冠军。

不动如山,滔滔如水。高山,是顶天立地,流水,是勇往直前。高山流水之间,讯飞研究院的攀登者们,坚守初心,勇攀高峰,追求卓越,讯飞研究院一直在路上。

AI新征程:“讯飞超脑2030计划”

“预见未来最好的方式就是创造未来”。

2022年年初,科大讯飞吹响了未来10年战略布局的号角,正式对外发布“讯飞超脑2030计划”(下文简称“超脑2030计划”),在不同的阶段推出不同功能的机器人和虚拟人,让“懂知识、善学习、能进化”的AI走进每一个家庭,用技术去关怀人、热爱人、温暖人、成就人。就在不久前举办的科大讯飞全球1024开发者节上,“超脑2030计划”在多模感知、多维表达、深度理解、运动智能四大核心技术领域获得阶段性突破,真正解决复杂的虚拟和现实场景应用问题。

AI虚拟人交互平台“扣响”元宇宙大门

全球1024开发者节的技术发布会上,一场“真人与AI虚拟人安安”的对话扣动了现场无数观众的心灵扳机:不用出门就能游览黄山迎客松,无须穿戴任何设备就能和表情丰富、情感细腻的虚拟导游畅聊。

这位具有硬核AI能力的虚拟导游,集成了“超脑2030计划” 的多模感知、多维表达、深度理解等多项前沿技术,让真人和虚拟人可以非常自然地“穿越”不同场景对话,给人机交互带来全新的沉浸式体验。

“多模感知”技术可以帮助机器更“懂”人类。环境太吵、人多口杂,语音识别领域挑战难度最高的“鸡尾酒会难题”怎么解决?此前曾在国际多通道语音分离和识别大赛CHiME获得多项冠军的讯飞研究院,今年突破性地运用了“唇形+语音”的多模态语音增强技术,让语音识别的结果更精准。AI感知方式从单模态发展到多模态,通过听觉、视觉、语义以及各种传感器的组合去获取更多的有用信息,通过多模感知技术,可以实现人和机器更加自然的交互。

“多维表达”技术可以帮助人类更“懂”机器。当你结束一天工作准备入睡,TA可以轻声细语读为你散文;当你驱车去公司上班,TA可以用你最喜欢的歌手声音告诉你走哪条路不堵车……这已不仅仅是电影桥段。今年,讯飞研究院最新发布的多风格多情感语音合成系统SMART-TTS,就可以生成这样的虚拟声音助理,能够提供“高兴、抱歉、撒娇、严肃、悲伤、害怕、鼓励”等11种情感、每种情感有20档强弱度不同的调节能力,让创造声音成为可能,领跑业界。

除了在语音合成等“强项”上持续进步,讯飞研究院还在虚拟形象生成技术上取得新突破,实现语义可控的声音、形象生成,语义驱动的情感、动作表达,比如,输入“一头长发”,系统智能生成温柔大方的女性形象,声音端庄又不失甜美;语音语义驱动的动作合成,则能通过对语音节奏、韵律体会和语义理解,让虚拟人可以随时、流畅地切换动作,拥有更加自然的肢体语言。

无论是多模感知还是多维表达,都是“系统性创新”持续探索的结晶。如今,这些技术已在“AI虚拟人交互平台”开放,能够基于此实现全方位的AIGC创作——构建3D个性化虚拟人形象、生成多语种主播音视频、虚拟人直播等。一幅繁茂的虚拟人生态图景——通过建设覆盖虚拟助理、虚拟服务机器人、虚拟IP等数百个形象和声音,AI虚拟人交互平台为媒体、金融、文旅、政务、电商等行业场景提供虚拟人打造服务。

“机器人超脑平台”带来“人机协同”新时代

“身怀绝技”的四足机器狗小黑成为网红——头顶钢球健步如飞、爬坡下楼稳稳当当、闻到气体泄漏马上预警,现场观众惊叹“稳如老狗”。

为什么这么“稳”?靠的是讯飞研究院研发的基于多模态强化学习的运动控制算法,通过无偏差信息输入的评价网络,指导带噪信息输入的动作网络训练,最终实现可预测目标关节位置和真实关节位置。强大的不是“小黑”,而是小黑内嵌的“机器人超脑平台”,也是“超脑2030计划”阶段性突破——讯飞研究院将多模交互、运动控制、硬件模组结合深度理解能力全部集中到这一平台,为广大生态伙伴赋能,推动“人机协同”新时代的到来。未来,一个工作人员可能会和数百上千的“机器狗”共事,人通过收集前端机器狗排查到的问题,集中调度力量解决,从而大幅提升效率,人机协同的模式将广泛应用到服务领域、工业领域等各行各业。

“小黑”迈出的一小步,是AI机器人发展历程前进的一大步。根据“超脑2030计划”,科大讯飞将分阶段推出可养成的宠物机器人、外骨骼机器人、服务机器人,未来十年,让机器人走进每一个家庭,陪伴孩子成长、辅助老人独立行走、帮助家庭减轻劳动。

AI源动力:系统性创新解决社会刚需命题

2022年,人工智能技术的演进仍然不断落入各行各业,成为拓新变革的源动力。人们在工作、生活中感受到的全新体验与变化,也许都蕴含着讯飞研究院在技术上的每一次迈步。  

在教育领域,讯飞研究院的知识图谱技术不仅登顶国际评测榜首,并且深入融合至教育相关产品中,真正实现了“通过知识图谱找弱项”。备受家长青睐的科大讯飞AI学习机独有的“AI个性化精准学系统”,也正是在此技术上今年再度升级,覆盖多学科、全阶段、区域化分层级的内容诊断,为AI+学习树立了行业标准的标杆。

融合贯穿了讯飞研究院全学科OCR识别、知识图谱、多维度学情画像、语义理解等核心技术,“因材施教”充分打通了过程学情记录、学情分析、智慧教学等环节,在2022年持续落地。目前,教育的区域级因材施教解决方案走向全国40多个城市、县区,人工智能正在深入教育的本质。

在医疗领域,依托于讯飞研究院在认知智能方面的持续创新,让机器的深度理解能力提升到了知识推理所能达到的新高度,科大讯飞研发出多模态AI问诊系统,联合北师大和北京安定医院构建了抑郁症筛查平台,实测数据表明对抑郁症筛查的准确率已经达到91.2%,在北京安定医院等实现了常态化试点,并将于明年向全国正式推广开来。全社会关注的青少年心理健康问题或许有了更加专业、精准的解决方案,呵护祖国的花朵们健康成长。与此同时,学习了人类医学知识、具备全科辅诊能力的智医助理,也因讯飞研究院在认知智能领域的技术突破有了更好的表现,在这一年里辅助基层医生修正诊断数超63万次,辅助诊断准确率提升至97%,覆盖疾病数量超过1400种,让每个人的生命健康都有了更智慧的AI守护者。

在车载领域,随着讯飞研究院创新提出多模态语音识别技术的率先落地,车载的语音识别系统实现了结合驾驶员唇形与语音特征,即使在后排、副驾、舱内外较为嘈杂的环境下,也能准确识别驾驶员说话内容并精准响应,同时添加的硬件设备还能实现视线检测、疲劳检测、手势检测等用途。智能座舱体验全面升级,车载人机智能交互有了全新的体验。

提起北京2022年冬奥会和冬残奥会,很多人仍然记忆犹新。作为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商,这一年,科大讯飞承担的国家重点研发计划项目“冬奥多语种语言服务关键支撑技术及设备”顺利通过课题绩效评价,通过把多语种语音识别、多语种语音合成、多语种机器翻译、智能交互等各项技术用在冬奥会的具体场景中,打造史上首个沟通无障碍冬奥会,实现“人和人之间沟通无障碍、人和组织之间沟通无障碍、人和赛事之间沟通无障碍”。

AI科技树:用正确的方法,做有用的研究

成立17年以来,讯飞研究院坚持“面向世界前沿的技术创新、基于系统性思维的模式创新、前后贯穿的机制创新”,实现了从0到1的源头核心技术创新和从1到N的系统性创新,构建起“研究+工程+平台+资源”的完整研发体系,离不开“AI科技树”的底座支撑。以基础算法为主干节点,以技术体系为生长方向,以场景理解为发展动力——讯飞研究院的AI科技树,全面支撑了讯飞面向全行业的业务生命树。

在核心源头技术上,攀登从未停歇。2022年,讯飞研究院有47篇论文被ACL、KDD、SIGIR、ICASSP等国际人工智能领域顶级会议录用;获得15项全球人工智能竞赛评测的冠军,例如感知智能方面的2022 ECCV OOV-ST挑战赛文字识别赛道、国际声学场景和事件检测及分类挑战赛(DCASE),认知智能方面在科学知识推理挑战赛OpenBookQA中实现单模型全球首次超过人类平均水平,以及常识推理挑战赛CommonsenseQA 2.0中刷新机器科学常识推理水平的世界纪录。

AI科技树的枝繁叶茂,离不开国家级平台春风化雨的哺育。今年,“语音及语言信息处理国家工程实验室”已正式通过评估,转建为“语音及语言信息处理国家工程研究中心”,发力语音语言等人工智能技术创新更远的未来,在服务国家重大战略需求以及带动产业发展方面发挥关键作用。至此,科大讯飞承建了国家新一代人工智能开放创新平台、语音及语言信息处理国家工程研究中心等国家级平台,在多个技术方向奠定多项人工智能领域的里程碑。

这一年,讯飞研究院也积极参与行业重大趋势发声。面向元宇宙,在世界制造业大会人工智能创新论坛上,科大讯飞AI研究院执行院长、语音及语言信息处理国家工程研究中心副主任刘聪发表主旨演讲,提出了“人类不应仅是元宇宙的体验者,更应是主导者和设计者;元宇宙空间作为技术和数据枢纽,应更多地去做现实世界;‘需有所为而不可为’的事情;坚持推动数字经济赋能实体经济,以虚助实”的行业前瞻性思考。

这一年,数学家丘成桐来到了讯飞研究院,寄语讯飞研究院的青年科学家们“寻智能根基,兴数学科技”,“一路学一路做应用”,在实战当中不断提升数学能力,丘成桐和多所国内知名院校的数学研究团队的到来,是讯飞下一步基础研究发展重要的标志性事件。

因为看见,所以坚信。从单语种单场景到多语种多场景、从单模态智能到多模态智能、从算法创新到软硬一体化创新的拓展,AI生命树向阳而生,欣欣向荣。

站在全面建设社会主义现代化国家、向第二个百年奋斗目标进军的新征程历史节点上,面对高质量发展的时代之问,讯飞研究院答案笃定:“用正确的方法,做有用的研究”, 以价值创造为根本,用系统性创新解决重大社会刚需命题。

24快报
JSON抓取失败