一些对我们而言轻而易举的事情,对于听障人士来说,却非常困难——比如“看”冬奥会。这次他们有福了!据悉,将有一位“数字主播”——手语播报AI数字人亮相北京2022冬奥会和冬残奥会,她会在大屏幕上根据主持人的语音用手语将冬奥赛事进行同步播报。
9月24日,在2021中关村论坛之“人工智能与多学科协同创新”平行论坛上,北京智源人工智能研究院学术副院长、清华大学教授唐杰发布了“冬奥手语播报数字人系统”成果 图片来源/中国科学报 郑金武摄影
根据国内统计数据,中国有超过2700万听障人士,对教育、社交、娱乐、信息获取有巨大的需求。如果算上需要与他们交流的亲人、朋友和同事,更是会涉及到上亿人。
传统的手语播报,主要靠手势来传递信息,一方面因不同的人有不同的手势习惯,容易造成信息传递偏差;另一方面,会造成手语播报主持人翻译工作量大、与节目主持人配合难度高,从一定程度上限制了听障人士对于信息的获取。手语播报AI数字人首先可以避免“千人千面”,始终保持统一;其次,可以根据收听到的语音,自动实时生成手语手势,提供精确的播报服务。
数字手语主播不仅需要真实的数字人形象,也需要能够理解、翻译语音和手语的数字大脑。手语播报数字人,是一个“智能人”,它不仅拥有生动的表情神态、丰富的肢体语言,还拥有“大脑”——能够理解、翻译语音和手语的数字双轮驱动虚拟数字脑。它配置了口形、表情、姿态、手部动作等多种素材以便进行“表情管理”。
2021年9月23日,北京,2021年中关村论坛上手语播报数字人 图片来源/视觉中国
为了提高冬奥播报的准确性,研发团队还对手语播报数字人进行了“培训”,构建了冬奥手语语料库,包括多模态肢体动作、表情、手指等语料,教授数字脑掌握手语表达的方法。同时,手语数字脑可以通过计算机模仿听障人士的大脑,将看到的中文文本信息转换成手语词汇序列,让听障人士实时了解赛事进程。通过AI技术将播报内容翻译合成为手语,并利用数字人虚拟主播来播报,成为解决这一难题的重要途径。
手语数字播报的实现,是因为背后有“悟道2.0”超大规模人工智能模型的技术支撑。结合冬奥会的有关信息,悟道大模型可以实现文本到手势的自动转化。当播报员播报时,数字人可以将文字转换成手语,方便听障人士收看赛事专题报道,这是“悟道2.0”超大规模预训练模型的首次实际场景应用。依托“数据”与“知识”,冬奥期间赛事新闻实现了实时手语翻译播报,填补了这一领域的空白。
2021年6月3日,观众在2021北京智源大会上参观智能模型“悟道2.0”的资料介绍。“悟道2.0”模型的参数规模达到1.75万亿,是目前中国首个、全球最大的万亿级模型 图片来源/视觉中国
据了解,这一“冬奥手语播报数字人系统”由北京市科委、北京市残联发起,科技冬奥专项支持,智谱AI、凌云光和北京广播电视台联合打造,项目还得到了市残联聋人协会的大力支持。
数字人的未来不只是手语播报,随着人工智能技术的不断演进,数字人也进入了其它领域,如向大家介绍空间站情况的数字记者小诤、游戏直播行业涌现的各类虚拟人物等。
如今,在技术蓬勃发展的新风口下,数字人不仅达到了人像的写实级逼真程度,还具备了一定的沟通交流能力。虚拟互动技术的扩展,让数字人可以进入到医学、矿学和航天学等精细或危险领域。未来,数字人将具备类似人的看、听、说和知识逻辑能力,人工智能将进一步发展。让我们翘首以待吧!
科学性审核:杨旖旎 博士,国际裁判