Avat3r：高保真三维头部头像的大型可动画高斯重建模型

楠哥聊AI

已于 2025-03-01 20:54:37 修改

阅读量97

点赞数 3

分类专栏：计算机视觉/图形学-数字人论文泛读文章标签： 3d 计算机视觉数字人 talking head talking face

于 2025-03-01 20:53:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/A_D_I_D_A_S/article/details/145953411

版权

计算机视觉/图形学-数字人论文泛读专栏收录该内容

55 篇文章 6 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

在这里插入图片描述

知识星球「AI数字人科研交流群」：https://t.zsxq.com/VGYkZ

传统上，创建照片级真实感的三维头部头像需要工作室级别的多角度捕捉装置，并在测试时进行昂贵的优化，限制了数字人类双角色的使用仅在视觉特效行业或离线渲染中。为了解决这一缺陷，本文提出了Avat3r，它仅通过几幅输入图像就能回归出高质量且可动画的三维头部头像，大大减少了推理过程中的计算需求。更具体地，我们使大型重建模型变得可动画，并从大型多角度视频数据集中学习关于三维人头的强大先验。为了获得更好的三维头部重建效果，我们采用了DUSt3R的位置图和人类基础模型Sapiens的广义特征图。为了给三维头部赋予动画效果，我们的关键发现是对表情代码进行简单的交叉注意力就足够了。最后，我们通过在训练期间向模型输入不同表情的图像来提高鲁棒性，使得能够从不一致的输入中重建三维头部头像，例如由于意外移动导致的不完美手机拍摄，或者来自单目视频的帧。我们将Avat3r与当前最先进的少输入和单输入场景方法进行了比较，发现我们的方法在这两项任务中都具有竞争优势。最后，我们展示了所提出模型的广泛适用性，从不同来源的图片、智能手机拍摄、单张图片ÿ

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

楠哥聊AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Alternative Proxies:

Alternative Proxy