行业主要上市公司:科大讯飞 ( 002230 ) 、蓝色光标 ( 300058 ) 、歌力思 ( 603808 ) 、芒果超媒 ( 300413 ) 、博瑞传播 ( 600880 ) 、虹软科技 ( 688088 ) 、腾讯 ( 00700 ) 、百度 ( BIDU ) 等
本文核心数据:数字人专利相关统计数据。
智慧芽统计口径说明:1)搜索关键词:数字人及与之相近似或相关关键词;2)搜索范围:标题、摘要和权利说明;3)筛选条件:简单同族申请去重、法律状态为实质审查、授权、PCT 国际公布、PCT 进入指定国(指定期),简单同族申请去重是按照受理局进行统计;行业筛选参考数字经济分类对应国民经济分类。4)统计截至日期:2022 年 11 月 21 日。5)若有特殊统计口径会在图表下方备注。下同。
数字人系统框架:由五大模块构成
虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等 5 个模块构成。人物形象根据人物图形资源的维度,可分为 2D 和 3D 两大类,从外形上又可分为卡通、拟人、写实、超写实等风格,这部分主要由建模技术生成;语音生成模块和动画生成模块可分别基于文本生成对应的人物语音以及与之相匹配的人物动画;音视频合成显示模块将语音和动画合成视频,再显示给用户。交互模块使数字人具备交互功能,即通过语音语义识别等智能技术识别用户的意图,并根据用户当前意图决定数字人后续的语音和动作,驱动人物开启下一轮交互。
真人驱动型数字人技术流程:CG 技术的进一步延续
在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作 / 表情等驱动虚拟数字人。
由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助虚拟数字人完成大型直播、现场路演等互动性、碎片化活动。
事实上,这种技术思路可以看作是传统影视制作中,CG 技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动(如 iPhone 12 摄像头已可支持简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。
算法驱动型数字人技术流程:依赖深度学习模型
在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。
计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP 技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是在感知技术方面有较强的综合实力,相对成熟的 AI 技术公司。
专利布局:网易专利申请数量最多,游戏领域专利占比较大
——热门声请人:网易专利申请数量最多
中国数字人领域专利申请数量 TOP10 申请人分别是网易(杭州)网络有限公司、腾讯科技(深圳)有限公司、北京达佳互联信息技术有限公司、北京字跳网络技术有限公司、维沃移动通信有限公司、北京百度网讯科技有限公司、OPPO 广东移动通信有限公司、抖音视界有限公司、广州方硅信息技术有限公司、华为技术有限公司。
其中,网易(杭州)网络有限公司在数字人领域专利申请数量最多,公司专利数量达 1535 项,腾讯科技(深圳)有限公司排名第二,其数字人领域专利申请数量达 1295 项。
——技术构成:与游戏相关的专利占比超 20%
从技术构成来看,目前 "A63F13 视频游戏,即使用二维或多维电子显示器的游戏〔7,2014.01〕 [ 2014.01 ] " 申请数量最多,达到 3101 项,占前十大技术总量比重 23.62%;其次为 "G06F3 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置;用于将数据从处理机传送到输出设备的输出装置,例如,接口装置〔4〕 [ 2006.01 ] ",专利数量达到 2442 项,占前十大技术总量的比例达 18.6%。
更多本行业研究分析详见前瞻产业研究院《中国数字人产业发展前景预测与投资战略规划分析报告》,同时前瞻产业研究院还提供产业大数据、产业研究、政策研究、产业链咨询、产业图谱、产业规划、园区规划、产业招商引资、IPO 募投可研、IPO 业务与技术撰写、IPO 工作底稿咨询等解决方案。