2023 年, AIGC 的浪潮改变了整个互联网局势,人工智能迅速成为当下热点,各种相关商业化落地产品正以惊人的速度改变着我们的生活方式。随之而来的大模型认知“通识化”热潮,让越来越多的人开始期待用 AI 员工取代原有的密集性重复劳动的可能性。
在当今数字化时代,离成熟落地应用最近的产品,除了文生文、文生图等生产力替代以外,在当下视频语言、直播互动变成更新的内容展示方式后,这两个方向也成为了值得探索的切入点。而秉持着“机器应该工作,人类应该思考”理念的一知智能,顺着已有的多模态人机交互技术,也基于对消费零售行业上下游行业的理解,自然而然地探索出了“人机对话”的新载体和 AI 员工新的实现可能性——一知智能芽势数字人。
一知智能芽势数字人采用了一知智能自主研发的由文本和语音驱动的数字人口型合成算法,并基于自然语言理解、语音识别、语音动作合成等一知智能底层核心技术能力,集成于一知大脑“Yi Brain”,支持直播、短视频等多种交互场景。一知智能芽势数字人能够实现与人类的自然对话,并且具备逼真的外貌和动作表现能力,已经应用于本地生活、文化旅游、直播电商、家具家电、教育培训等多个行业,支持 2D 数字人风格化形象和声音定制,低人力成本,全天候在线,轻松复制 7x24 小时无人/半无人直播间,实现直播场景品牌化。
拾级而上:从音频到视频的技术路径
早在实验室时期,一知智能的创始团队就开始探索各种人机交互技术,并且取得了重要的突破。一知智能一直以来的产品设计是沿着多模态人机交互的路径来走的。从多模态人机交互的层级来看,最简单的就是文本聊天,在这一基础上延伸出了许多客服产品,文本相关的产品虽然简单但距离感大。往上一层就是语音,这也是一知智能过去最擅长的,2018年,一知智能发布人机对话交互产品——一知智能客户联络中心(AICC),通过优秀的技术实现了出色的语音交互效果,五年来受到了广泛的赞誉和应用,并在持续为品牌和会员提供最优质的对话体验与服务。
然而,我们也意识到,仅仅停留在语音阶段的人机交互还远远不够。我们渴望拓宽交互的边界,提供更加多样化的交互方式,以满足不同场景下的需求。于是,我们开始寻找更好的人机交互载体,这就是数字人产品的初衷。2020年,一知就开始尝试数字人的产品和解决方案,并将数字人应用在政府、银行、园区的大屏和终端机上,这让我们看到数字人产品的落地价值以及市场对相关技术的需求。经过三年的技术探索和产品优化,一知智能正式推出芽势数字人。目前的数字人产品不仅能够支持语音对话,更支持直播、短视频等多种交互场景。消费者可以通过与数字人进行实时互动,在虚拟的世界中享受到更加真实、生动的体验。
商业化无人区:视频直播时代的生产力工具
传统直播行业中,主播 IP 的影响力和个人魅力往往成为影响直播和短视频业务成功的关键因素,但这也带来了巨大的风险和不确定性。企业打造主播 IP 需要投入大量的时间和金钱,但却经常面临跳槽风险,无法实现稳定合作。而数字人技术可以高度还原主播 IP 形象,具备自主表达和交互能力,用技术对抗主播成本,完美解决了主播 IP 依赖的问题,让最好看、最有表现力的主播的最好的一面持续呈现。
此外,真人主播无法做到24小时在线直播,浪费了大量闲时流量,AI 数字人虚拟主播可替代真人主播做到7X24小时在开播,空闲时间也能充分利用流量。通过规模化复制直播间,无需场地、设备和真人维护,实现全天候在线直播。这不仅大幅度降低了运营成本,还为商家提供了更灵活的运作方式。
数字人取代的是商业化主播和各种 IP 的重复性体力劳动,指向的“商业化无人区”是账号和直播间冷启动的场景,用极低的启动成本和几乎可以忽略不计的边际成本,让直播间搭建和 IP 内容批量产出变得“人人可试可用”,这是效率和普适性的大幅跃迁。
图文类型的宣传推广已经与短视频直播时代脱轨,更高效更符合客户消费习惯的内容形式给企业带来新的挑战。一知智能芽势数字人 SaaS 化的服务模式为商家带来更直接的价值。芽势数字人提供高度智能化和个性化定制功能,并具备高度可扩展性,商家可以根据自己的需求和偏好,定制数字人形象和交互方式,从而达到更精准的营销和推广效果。SaaS化的服务模式让天下的商家都能实现“人人可播,人人可 IP ”。
一知智能芽势数字人让直播和短视频业务不再受时间和空间的限制,打破了传统工作模式的束缚,赋予人们更多自由和灵活性。无论是在传统商业领域,还是电商、教育、本地生活等行业,数字人技术都将带来更多机遇和可能性。
坚实技术后盾:革命性的智能交互体验
作为一家技术驱动型公司,一知智能始终保持对技术先进性的追求,在长期的探索过程中积累了大量的全栈式人机交互技术。同时,随着 AIGC 相关技术和产品基建的日渐完善,一知智能芽势数字人的商业化落地和探索也有了更大的信心。
一知智能芽势数字人由一知智能自主研发的前沿 AI 算法驱动,核心优势就在于能让数字人像真人一样说话。首先,自然语言理解算法让数字人能够准确地理解用户的语言意图,从而实现智能问答,目前直播间弹幕的响应速度已经达到了秒级。其次,语音识别算法赋予数字人对用户语音指令快速响应的能力,让交互更加便捷高效。最后,语音动作合成技术使得数字人能够通过精确的语音控制实现逼真的面部表情和肢体动作,增强了用户与数字人之间的沟通体验。除此以外,高度的拟人化更源于一知智能两方面的底层核心能力:
一知智能自研的数字人唇形驱动模型能够使用语音输入来驱动面部与唇形的生成,生成结果具备极高的真实感,面部动作与真人没有肉眼可见的差别,音唇匹配度处于业界领先水平,模型推理效率高,并且可以支持实时的数字人视频合成。
一知智能自研的声音克隆技术,采用大规模音频数据进行预训练,无需复杂的各种音色特征抽取。只需5到10分钟的音频数据即可完美地克隆音色。模型训练完成后,用文本驱动即可生成真人声音的语音,并与提供音频的音色、风格、韵律基本一致。
一知智能芽势数字人是业内少有的同时支持声音克隆和形象克隆的数字人产品。一知智能在人机交互技术上的领先优势,能够高效、高质地推动数字人产品的落地,而一知智能 AI 实验室和浙大·一知人工智能联合研究中心,也将持续围绕多模态人机交互展开产学研结合,助力数字人产品迭代升级。
一知智能芽势数字人的商业化落地将为企业在短视频 IP 打造、直播获客引流、私域运营等相关营销需求提供新的解决方案,补齐原有 AICC 产品在公域获客、提升品牌用户心智的需求短板,为多模态可视化交互技术补上了一知智能全栈人机交互的最后一块拼图。
通过 AICC 和数字人两大业务联手,一知智能将进一步推动行业技术进步,为企业提供更多场景、更高水平的解决方案,同时帮助企业客户在全域营销拥有更多 AI 数字生产力。一知智能希望在人机交互领域做出更有影响力的前沿研究和技术创新,用人工智能技术为社会创造更大的价值。