数字人,真不是人,但是正在辅助人、取代人。
这届冬奥会上,数字人很忙。
冲击三项项目的谷爱凌也很忙,但赛前还在咪咕演播室“赶通告”。不过,这不是她本人,而是她的数字分身Meet GU,这是一个以谷爱凌为原型的亚毫米级超写实数字人。Meet GU的外形、声音、神情、妆容,都与谷爱凌本人相似度较高,甚至毛孔细节、皮肤质感和颜色都做到了1:1还原。Meet GU是中国移动咪咕视频推出的体育数字达人,她还将在演播室完成滑雪赛事解说、播报及场景电商的虚拟互动等工作。
事实上,不止运动员数字分身这一项,数字人已经渗透到赛场内外多个环节。
徐梦桃夺冠背后,竟然有个虚拟教练“观君”,他已经在自由式滑雪空中技巧运动队“服役”了三年之久,会针对运动员的每一跳做出专业判断,严格判别扣分动作。有了这些数据后,教练员便可以给予运动员更加精准的指导。
此外,冬奥会上还有负责“冬奥观赛气象指数”播报的主播“冯小殊”;“百度智能云曦灵”数字人平台的AI手语主播,承担手语翻译;阿里巴巴的冬奥宣推官数字人“冬冬”,兼任特约记者、带货主播;科大讯飞的3D虚拟冰冰,有着酷似央视主播王冰冰的眉眼和神韵,还解锁了东北话、英语等多达31种语言技能;拓尔思旗下的“小思”,连续进行冬奥热点播报的同时,还可以进行自动采编、智能写稿、虚拟播报等……
自去年开始,“数字人”赛道热度一路攀升,各种形态和“人设”的数字人屡见不鲜。清华学生“华智冰”,“邓丽君”和粉丝“见面唱歌”,还有在金融、传媒、文旅、城市管理等多个领域的应用……数字人似乎正在突破现实与虚拟的边界,越来越贴近我们的现实生活。
2022年开门红,“数字人”融资累计金额逾4亿
启信宝数据显示,2020~2022年,数字人相关企业数量逐渐呈现快速增长趋势。其中,2020年数字人相关企业新增数量为36080家,到2021年,新增数量是66293家。截至目前,国内数字人相关企业存续数量超16万家。2022年开年不到一个月的时间,数字人领域融资数量已有近百起,融资金额达4.11亿元。
图:2020年-2022年,数字人相关企业数量变化(来源:启信宝,截至2022年1月17日)
在元宇宙概念下,去年的硬件和软件市场都异常热闹。有人试图在硬件产品的新旧交替期抢占市场,有人想在新的赛道上一马当先……在元宇宙这个相对肆意畅想的虚拟超现实蓝图中,其中就包括数字人、数字工厂、数字城市乃至所有现实元素的可数字化、虚拟化。
数字人并非依托元宇宙而产生,但元宇宙的火爆一定程度上带动了数字人的热潮。相比元宇宙,数字人作为一个更具象的概念,叠加疫情下虚拟内容需求的增加、相关硬件的快速发展,成为元宇宙风口之中的“风口”。
在与一些业内人士的交流中收到这些反馈:“数字人是元宇宙中落地最快的一个应用场景”、“数字人会是元宇宙的核心,承担关键的交互”……一位投资人表示,“能明显感觉到数字人在2021年下半年比上半年热很多,元宇宙开始从一个不落地的概念慢慢落地下来”。
数字人研发门槛有多高?
与语音助手等AI数字助理相比,数字人要达到的标准更高。外观效果、交互自然流畅度,是两个被评判的核心指标。前者涉及CG建模及驱动模型的精细程度,后者主要需要具备NLP对话模型中的语义理解、多轮对话,上下文理解能力等。
以本次冬奥会的百度AI手语主播为例,探讨一下研发一款AI手语主播有多难?
从外形看,对比以往的虚拟主播形象,AI手语主播不仅高度还原真人发肤,且在立体感、灵活度、可塑性上都有大幅提升。为了让“她”完成承担手语主播工作,百度智能云首先建立了规模庞大的手语动作库,基于《国家通用手语词典》规范,结合动作捕捉设备和真实手语老师的双向调优,精修近1万个手语动作,保证了手语表达的动作准确性。同时首创4D扫描技术,使得AI手语主播表情自然生动,口型生成准确度高达98.5%。
此外,通过机器翻译技术,百度智能云构建出一套精确的手语翻译引擎,可懂度达到85%以上,结合语音识别技术,可将冰雪赛事的文字及音视频内容转化为手语;同时再通过专为手语优化的自然动作引擎,完成AI手语主播的动作驱动,实时演绎为数字人的动作、表情和唇语。这保证了AI手语主播具备高可懂度的手语表达能力和精准连贯的呈现效果。
据百度方面表示,数字人要为人类提供服务、与人自然地交流,背后需要强大的知识体系和对话能力支撑。百度知识图谱积累的5500亿知识,帮助数字人拥有“自己”的经验和认识去思考。基于百度去年发布的百亿参数对话模型PLATO,数字人才可以跟用户进行有料、有趣、有情感的交流。
算力、算法、AI模型的协同优化必不可少
建模、AI、动作捕捉、渲染是开发数字人的关键技术,而这些都离不开算力的支撑。算力直接影响了是否可以进行实时渲染、互动,从而可能会进一步限制到实用场景,是打造和应用的关键基础。
思腾合力是AI服务器与HPC基础架构解决方案商,该公司AI算法工程师庄翔宁告诉<与非网>,数字人的开发需要用到计算机图学、图形渲染、动作捕捉等等,因此在即时响应性能方面会有一定程度算力的需求。
此外,为了满足即时响应的需求,在训练的模型上,有必要进行模型压缩,抑或是一开始就避免将训练模型设计得太复杂,以免影响到应用时运行的速度。思腾合力在图形预处理和模型压缩方面,通过自研算法来降低影像或视频的解析度,但保留重要核心判定的物体。
他补充,在模型压缩及布署方面,除了精简训练模型外,也可以通过压缩方式进一步精简其超参数,最后通过模型布署的方式简化应用模型。
由此可见,一款数字人的打造和成功应用,算力支持必不可少,但是算法、模型的协同优化也非常关键,不论是提升即时响应能力,还是数字人的人格化训练,以及使数字人具备一定的知识体系、互动能力等,都是数字人实现动态性、交互性的关键支柱。
数字人:好看的皮囊下,AI交互是硬核
从数字人当前的投资方向看,大多数集中在数字人主播、数字人偶像等制作上。一位投资人表示,目前,AI赋予数字人的交互能力在一级市场更受关注,可惜这样的好项目并不多。
数字人仍处于发展初期,业界当前首先在命名上就有很多方式:数字人、虚拟人、数智人、虚拟数字人、数字孪生、虚拟替身、数字分身等等,这也从一定程度上体现了它所处的发展阶段——就像任何刚刚起跑的新事物一样,难免有概念和定义上的纷争。
根据《虚拟数字人深度产业报告》,这些命名都可以指代由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等手段打造出来的具有人类外貌特征、表演能力、交互能力等等的非物理世界产物。
《中国虚拟数字人影响力指数报告》则从未来媒体形态和服务模式对虚拟数字人进行了定义:计算机图形学、语音合成技术、深度学习、类脑科学、生物科技、计算科学等聚合科技(Converging Technologies)带来语义传播与无障碍传播的新空间,由此诞生的虚拟数字人将以新媒介角色,广泛应用在元宇宙新生态中,担任着信息制造、传递的责任,是元宇宙中“人”与“人”、“人”与事物或事物与事物之间产生联系或发生孪生关系的新介质。
从以上定义中,可以提炼出数字人的三大发展特征:第一,它是聚合科技的产物;第二,兼具人类外形和内在,交互能力是关键;第三,未来更大的市场存在于行业应用新生态中,也就是说,它需要在更多的创新方向、下沉市场中找到更多的价值空间。
把冰冷的人机交互变成更加有真实体感的交流,或是作为真实人类的数字分身来帮助交流,这些都是数字人正在做的。未来,只要有交互需求的地方,数字人都会有用武之地,而这也是数字人当前最大的考验。
写在最后
数据显示,2030年,围绕虚拟数字人我国将会形成一个高达2700亿的蓝海市场(量子位《虚拟数字人》报告)。但现阶段,数字人仍面临着开发门槛高、成本高、制作周期长、难以批量产出等挑战,这与元宇宙“人人都有一个数字分身”的愿景还有着巨大的鸿沟,也是当前需要着力解决的问题。
下一步,数字人将重点向融合文字、听觉、视觉、肢体动作甚至触觉等多模态交互的方式演进,除了在to B服务领域持续发力外,在生活服务中也会为C端用户带来更多陪伴、信息交互以及更深的情感链接,带来有温度的交流体验。