数字人

虚拟人技术兴起,或将代替真人工作

在以虚拟主播、虚拟偶像为代表的演艺型数字人赛道上,百度智能云曦灵打造的 AI 手语主播,为2700万听障用户提供直播及赛事的手语服务;世界博物馆日,文博虚拟宣推官“文夭夭”持证上岗,为各大博物馆提供讲解、导览、直播等服务;百度品牌数字人希加加也成为麦当劳首个虚拟代言人,为品牌营销带来新玩法。

在科大讯飞研究了十年语音技术的科大讯飞 AI 研究院副院长潘嘉还告诉我们,普通话等级考试还有一个特点:它的答卷是在录音室里,用合适的设备,让考生尽可能标准地读出内容。而在语音识别的初始阶段,工程师们必须先从这种无限接近理想情况下,从高质量语音的评测开始做起。

让计算机听懂语音,在几年的技术孵化后,迅速被投入到普通话等级考试中去。为什么一定要搞定这个技术,让机器去给人打分?实际上,为口语考试打分的工作量,远远超过其它任何一种考试形态。批作文可以一目十行,但普通话考试的老师必须仔细听完每一段语音、不漏过每一个读错的字,才能打分。

当年,魏思还主导了科大讯飞 AI 研究院里的「大组会」——在理工科实验室呆过的同学对这个名词想必不会陌生,而在科大讯飞,这个会议承载了各个团队交流各方向最新国际进展的关键场合,科大讯飞 AI 研究院的三条技术主线:语音、计算机视觉、认知智能,魏思和其它资深的技术专家要参与每个方向的技术报告。

很快,科大讯飞 AI 研究院的科学家们就用同样的底层模型,实现了 OCR 识别的准确率突破,并应用到了很多年前为 OCR 规划的应用场景里:全学科的试卷阅卷。这套系统很快完成了中高考英文作文识别的任务,并结合自然语言处理,与阅卷老师共同完成作文的打分工作。

直到今天,科大讯飞的 OCR 技术的底层,仍然是这套源于语音识别的深度神经网络框架。但在 OCR 之后,让机器看懂人的语言,还远远没有到头——接下来的工作,是让机器识别数理化的公式。

资本密集投资虚拟人背后,是虚拟形象在从偶像IP下沉到普通人。从Gartner曲线来看,这可能是一个关键的应用拐点。

虚拟人,正在成为2022年的第一个风口。

1月6日,一则字节投资“李未可”的消息将虚拟人的热度再次推上了一个新的高度。在这之前,邓丽君“复活”登上江苏卫视跨年演唱会,柳夜熙一条视频涨粉300万的经历都在不断挑弄着市场对于虚拟人的热情。

事实上,自2021年7月扎克伯格大炒元宇宙概念以来,科技企业或多或少都开始了元宇宙的布局。在国内,据商业数据派不完全统计,自2021年7月以来,一级市场虚拟人相关的核心投融资事件已达到18次。

大部分“虚拟人”是高配版QQ秀

如何定义虚拟数字人?

按中科深智创始人兼CEO成维忠的看法,只要能动起来,有表情等设定,跟真人能够交互,都应该纳入到虚拟人的范畴。

而在普遍的行业研究和学术定义上,虚拟人也是一个非常广泛的概念。例如按中国智能产业发展联盟发布的《2020虚拟数字人发展白皮书》中的定义,虚拟数字人大致可以被分为服务型和身份型两类。这其中又可以细分为AI助手、替代真人服务、虚拟主播、虚拟身份等多种。

其实服务型虚拟人林开开和叶悠悠的兄弟姐妹还有很多,百度智能云至今已经造了20多位数字人。他们正在替代或支持真人工作,已经不能单单用“酷”这样的字眼来形容,数字可以说明实际价值。

在服务型数字人赛道,自2019年至今,浦发银行联手百度智能云打造银行“数字员工”小浦化身“理财专员”,每月为46万人提供更有温度的金融服务;文档审核数字员工可提供相当于200-300人员/年的生产力;数字人客服的呼出量可达人工坐席的30倍;经 AI 数字员工培训的客服人员、理财经理,销售单笔平均金额提升了10-20个点,验证了 AI 数字人在金融行业的独特价值。

在以虚拟主播、虚拟偶像为代表的演艺型数字人赛道上,百度智能云曦灵打造的 AI 手语主播,为2700万听障用户提供直播及赛事的手语服务;世界博物馆日,文博虚拟宣推官“文夭夭”持证上岗,为各大博物馆提供讲解、导览、直播等服务;百度品牌数字人希加加也成为麦当劳首个虚拟代言人,为品牌营销带来新玩法。

IDC咨询最新报告《中国AI数字人市场现状与机会分析,2022》总结道,AI 数字人商业价值与社会价值巨大。对于企业来说,可提升员工生产力、创造力,优化用户体验;对于品牌来说,AI 数字人可作为虚拟品牌形象,避免真人代言可能引发的意外风险;在公益方向,可为残障人士提供服务通道,实现 AI 向善。

关键词

24快报
JSON抓取失败