知识星球「AI数字人科研交流群」:https://t.zsxq.com/VGYkZ
传统上,创建照片级真实感的三维头部头像需要工作室级别的多角度捕捉装置,并在测试时进行昂贵的优化,限制了数字人类双角色的使用仅在视觉特效行业或离线渲染中。为了解决这一缺陷,本文提出了Avat3r,它仅通过几幅输入图像就能回归出高质量且可动画的三维头部头像,大大减少了推理过程中的计算需求。更具体地,我们使大型重建模型变得可动画,并从大型多角度视频数据集中学习关于三维人头的强大先验。为了获得更好的三维头部重建效果,我们采用了DUSt3R的位置图和人类基础模型Sapiens的广义特征图。为了给三维头部赋予动画效果,我们的关键发现是对表情代码进行简单的交叉注意力就足够了。最后,我们通过在训练期间向模型输入不同表情的图像来提高鲁棒性,使得能够从不一致的输入中重建三维头部头像,例如由于意外移动导致的不完美手机拍摄,或者来自单目视频的帧。我们将Avat3r与当前最先进的少输入和单输入场景方法进行了比较,发现我们的方法在这两项任务中都具有竞争优势。最后,我们展示了所提出模型的广泛适用性,从不同来源的图片、智能手机拍摄、单张图片ÿ