2025/02/23 17:26

ICLR 2025｜南洋理工大学AvatarGO，探索4D人与物体交互生成新方法

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

近年来，随着扩散模型和 Transformer 技术的快速发展，4D 人体 - 物体交互（HOI）的生成与驱动效果取得了显著进展。然而，当前主流方法仍依赖 SMPL [1] 这一人体先验模型来生成动作。尽管这些方法已取得令人瞩目的成果，但由于 SMPL 在衣物表现上的局限性，以及缺乏大规模真实交互数据的支持，它们依然难以生成日常生活中的复杂交互场景。

相比之下，在 2D 生成模型中，由于大语言模型和海量文字 - 图片数据的支持，这一问题得到了有效的解决。2D 生成模型如今能够快速生成高度逼真的二维场景。而且，随着这些技术被引入到 3D 和 4D 生成模型中，它们成功地将二维预训练知识迁移到更高维度，推动了更精细的生成能力。然而，在处理 4D 人体 - 物体交互时，这些 3D/4D 生成的方法依然面临两个关键挑战：（1）物体与人体的接触发生在何处？又是如何产生的？（2）如何在人体与物体的动态运动过程中，保持它们之间交互的合理性？

为了解决这一问题，南洋理工大学 S-Lab 的研究者们提出了一种全新的方法：AvatarGO。该方法不仅能够生成流畅的人体 - 物体组合内容，还在有效解决穿模问题方面展现了更强的鲁棒性，为以人为核心的 4D 内容创作开辟了全新的前景。

想深入了解 AvatarGO 的技术细节？我们已经为你准备好了完整的论文、项目主页和代码仓库！

论文地址：https://arxiv.org/abs/2410.07164
Project Page：https://yukangcao.github.io/AvatarGO/
GitHub：https://github.com/yukangcao/AvatarGO

引言

近年来，随着人体 - 物体（HOI）交互数据集（如 CHAIRS [2], BEHAVE [3]）的采集，以及扩散模型和 transformer 技术的迅速发展，基于文本输入生成 4D 人体动作和物体交互的技术已经展现出了巨大的潜力。然而，目前的技术大多集中于基于 SMPL 的人体动作生成，但它们难以真实呈现日常生活中人物与物体交互的外观。尽管 InterDreamer [4] 提出了零样本生成方法，能够生成与文本对齐的 4D HOI 动作序列，但其输出仍然受到 SMPL 模型的局限，无法完全突破这一瓶颈。

在另一方面，随着 3D 生成方法和大语言模型（LLM）的快速发展，基于文本的 3D 组合生成技术逐渐引起了广泛关注。这些技术能够深度理解复杂对象之间的关系，并生成包含多个主体的复杂 3D 场景。例如，GraphDreamer [5] 通过 LLM 构建图结构，其中节点代表对象，边表示它们之间的关系，实现了复杂场景的解耦；ComboVerse [6] 则提出空间感知评分蒸馏采样技术（SSDS），强化了空间的关联性。随后，其他研究 [13, 14] 进一步探索了联合优化布局以组合不同组件的潜力。但它们在生成 4D HOI 场景时，依然面临着两个核心挑战：

触区域定义不准确：虽然 LLM 擅长捕捉物体间的关系，但在与扩散模型结合时，如何准确定义物体间的接触区域，特别是复杂的关节结构如人体，仍然是一个难题。尽管 InterFusion [13] 构建了 2D 人体 - 物体交互数据集，旨在从文本提示中提取人体姿势，但它们仍在训练集之外的情况下，无法准确识别人体与物体的最佳接触部位。
4D 组合驱动的局限性：尽管 DreamGaussian4D [7] 和 TC4D [8] 利用视频扩散模型对 3D 静态场景进行动作驱动，但这些方法通常将整个场景视为一个统一主体进行优化，从而导致不自然的动画效果。尽管像 Comp4D [9] 这类项目通过轨迹为每个 3D 对象单独生成动画，但物体之间的接触建模仍然是一个巨大挑战。

为了解决这些挑战，AvatarGO 提出了两项关键创新，以解决物体与人体应 “如何交互” 以及 “在哪里交互” 的问题：

LLM 引导的接触区域重定向（LLM-guided contact retargeting)：该方法通过利用 Lang-SAM [10] 从文本中识别出大致的接触部位，并将其作为优化过程的初始化，从而解决了扩散模型在估计接触区域时的难题。
对应关系感知的动作优化（Correspondence-aware motion optimization)：基于对静态合成模型中穿模现象较少发生的观察，AvatarGO 提出了对应关系感知的运动优化方法。该方法将物体的运动分为主动和从动部分，并利用 SMPL-X 作为中介，确保人体和物体在交互过程中保持一致的对应关系。这一创新显著提高了在运动过程中对穿模问题的鲁棒性。

AvatarGO: 4D 人体 - 物体生成框架

AvatarGO 以文本提示为输入，生成具有物体交互的 4D 虚拟人物。其框架核心包括：（1）文本驱动的 3D 人体与物体组合（text-driven 3D human and object composition)：该部分利用大型语言模型（LLM）从文本中重定向接触区域，并结合空间感知的 SDS（空间感知评分蒸馏采样）来合成 3D 模型。（2）对应关系感知的动作优化（Correspondence-aware motion optimization）：该优化方法联合优化人体和物体的动画，能够在动画过程中有效维持空间对应关系，从而提升对穿模问题的鲁棒性。

文本驱动的 3D 人体与物体组合

现在已有的方法已经可以很快捷高效的生成三维人物

和物体

，但 AvatarGO 的研究人员发现，即使进行手动调整，如重新缩放和旋转 3D 物体，仍然难以精确地绑定生成的 3D 人体和物体模型。为此，他们首先利用文本提示将人物

和物体

进行组合，通过优化其高斯属性来实现这一目标。同时，他们还优化了物体

的三个可训练全局参数，包括旋转旋转

、缩放因子

和平移矩阵

其中

是组成物体

的高斯点云。

空间感知评分蒸馏采样（spatial-aware score distillation sampling）：沿袭 ComboVerse [6] 的方法，我们采用 SSDS 来促进人体和物体之间的 3D 组合生成。具体而言，SSDS 通过用一个常数因子𝑐（其中𝑐>1）缩放指定标记 < token∗>的注意力图，从而增强 SDS 与人体和物体之间的空间关系。

在这里，<token∗>对应于编码人体 - 物体交互项的标记，如 <‘holding’>，这些标记可以通过大型语言模型（LLMs）识别，也可以由用户指定。

LLM 引导的接触区域重定向（LLM-guided contact retargeting)：虽然空间感知评分蒸馏采样有助于理解空间关系，但在识别人与物体最合适的接触区域时仍然面临困难，而接触区域却又是人体 - 物体交互的关键组成部分。为了解决这个问题，AvatarGO 提出利用 Lang-SAM [10] 从文本提示中识别接触区域。具体而言，从 3D 人体模型

出发，AvatarGO 从正面视角渲染该模型生成图像𝐼。然后，将此图像与文本输入一起，输入到 Lang-SAM 模型中，以推导出 2D 分割掩码

：

其中，<body-part>表示描述人体部位的文本，例如 <‘hand’>。

随后，他们通过逆向渲染将 2D 分割标签反投影到 3D 高斯上。具体来说，对于分割图上的每个像素𝑢，他们将掩模值（0或 1）更新回到高斯点云上：

其中，

表示第𝑖个高斯点的权重，

是可以投影到像素 𝑢上的高斯点的集合。

分别表示不透明度、透射率和分割掩码值。在权重更新后，他们通过将高斯点的权重与预定义的阈值𝑎进行比较，来判断一个高斯点是否对应于人体部位的分割区域。然后，AvatarGO 根据以下公式初始化平移参数

：

其中，

，𝑁是人体模型

中高斯点的数量。

对应关系感知的动作场

在生成了 3D 人体与物体的组合之后，同步驱动他们带来了额外的挑战，其主要是由于潜在的穿模问题。这个问题源于物体缺乏一个明确定义的运动场。为此，AvatarGO 通过使用 SMPL-X 的线性混合蒙皮函数（Linear-blend Skinning）为人体和物体模型建立了运动场，并提出了一种对应关系感知的运动优化方法，旨在优化物体模型的可训练全局参数，即旋转（

）和平移（

），以提高人体与物体之间穿模问题的鲁棒性。首先，SMPL-X 的线性混合蒙皮函数（𝐿𝐵𝑆）可表达为：

其中，

和

分别表示 SMPL-X 在标准空间和观察空间下的顶点。

是蒙皮权重，

是仿射变形，可将第𝑘个关节

从标准空间映射到观察空间，

表示邻近关节的数量。

人体驱动：当给定一个基于 SMPL-X 的人体运动序列之后，AvatarGO 会首先构建一个变形场，该变形场由两部分组成：（1）利用 SMPL-X 线性混合蒙皮函数𝐿𝐵𝑆(⋅)的关节变形，以及（2）基于 HexPlane 特征学习的非刚性运动 [11]。该变形场可以将点

从标准空间变形到观察空间中的

：

其中，

表示基于 HexPlane 的特征提取网络， 𝑡表示时间戳。

则通过离

最近的标准 SMPL-X 的顶点推导得到。

物体驱动：与人体驱动类似，AvatarGO 首先将物体定义为刚体，并类似的通过计算物体模型

内的每个高斯点𝑥与其最近的标准 SMPL-X 顶点的变形矩阵

。物体的变形场则可初步被定义为：

其中，

是

中的高斯点总数。

尽管直接使用 SMPL-X 线性混合蒙皮进行物体动画可能看起来是一个简单的解决方案，但它可能导致人体与物体之间的穿模问题。这一问题主要来自于缺乏适当的约束来保持这两个模型之间的对应关系。

对应关系感知运动优化：通过观察，作者发现 AvatarGO 在处理不同场景下的静态合成模型穿模问题时表现出较好的鲁棒性。基于这一观察，作者提出了一种对应关系感知的运动优化方法，以保持人体与物体之间的对应关系，从而一定程度上减少穿模问题的出现频率。具体而言，AvatarGO 将上述运动场

进行扩展，加入两个额外的可训练参数

和

：

其中

是原有运动场

的输出。

在通过 SDS 来优化这些参数之外，AvatarGO 提出了一种新颖的对应关系感知训练目标，该目标利用 SMPL-X 作为中介，在人体和物体被驱动转换到新姿势时，保持它们之间的对应关系：

其中，

和

分别基于

及其对应的 SMPL-X 模型得出。除了应用 AvatarGO 提出的对应关系感知优化方法之外，作者还结合了空间感知 SDS 以及来自 HumanGaussian [12] 的纹理 - 结构联合 SDS，以增强整体质量：

其中，

和

是超参数，用于平衡结构损失和纹理损失的影响，而𝑑表示深度信息。

整体上，优化人物和物体运动场的损失函数可表达为：

其中，

分别表示用于平衡各自损失的权重。

实验

与其他 3D 生成方法的比较：下方视频对比了 AvatarGO 与 HumanGaussian [12]、GraphDreamer [5]、和 AvatarGO 的一个变种（仅通过 SSDS 优化人体和物体之间的关系）。结果表明，1）在没有大语言模型（LLMs）辅助的情况下，HumanGaussian 难以确定人类与物体之间的空间关联；2）尽管使用图结构建立关系，GraphDreamer 仍然在处理有效接触时存在困惑，导致结果不尽如人意；3）仅通过 SSDS 优化

不足以将物体移动到正确的位置。相比之下，AvatarGO 始终能够精确地实现人类与物体的交互，表现优于其他方法。

与其他 4D 生成方法的比较：下方视频展示了 AvatarGO 与现有 4D 生成方法（包括 DreamGaussian4D [7]，HumanGaussian [12]，TC4D [8]）的对比。结果表明，1）即使有了人体 - 物体交互图像作为输入，DreamGaussian4D（采用视频扩散模型）在 4D 驱动时仍然面临困难；2）HumanGaussian 直接通过 SMPL LBS 函数直接进行的动画，往往会产生不流畅的效果，特别是对手臂的处理；3）TC4D 面临与 DreamGaussian4D 类似的问题，同时，它将整个场景视为一个整体，缺乏对单个物体的局部和大规模运动的处理。相比之下，AvatarGO 能够持续提供优越的结果，确保正确的关系并具有更好的穿模鲁棒性。

总结

本文介绍了 AvatarGO，这是首次尝试基于文本引导生成具有物体交互的 4D 虚拟形象。在 AvatarGO 中，作者提出了利用大语言模型来理解人类与物体之间最合适的接触区域。同时，作者还提出了一种新颖的对应关系感知运动优化方法，利用 SMPL-X 作为中介，增强了模型在将 3D 人体和物体驱动到新姿势时，抵抗穿模问题的能力。通过大量的评估实验，结果表明 AvatarGO 在多个 3D 人体 - 物体对和不同姿势下，成功实现了高保真度的 4D 动画，并显著超越了当前的最先进技术。

局限性：在为以人为中心的 4D 内容生成开辟新途径的同时，作者同时也认识到 AvatarGO 存在一定的局限性：

1. AvatarGO 的流程基于 “物体是刚性体” 的假设，因此不适用于为非刚性内容（如旗帜）生成动画；

2. AvatarGO 的方法假设物体与人体之间持续接触，这使得像 “运篮球” 这样的任务难以处理，因为在某些时刻人与物体不可避免地会断开连接。

^参考文献

^{[1] SMPL: A Skinned Multi-Person Linear Model. SIGGRAPH 2015.}

^{[2] Full-Body Articulated Human-Object Interaction. arXiv 2212.10621.}

^{[3] BEHAVE: Dataset and Method for Tracking Human Object Interactions. CVPR 2022.}

^{[4] InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction. NeurIPS 2024.}

^{[5] GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs. CVPR 2024.}

^{[6] ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance. ECCV 2024.}

^{[7] DreamGaussian4D: Generative 4D Gaussian Splatting. arXiv 2312.17142.}

^{[8] TC4D: Trajectory-Conditioned Text-to-4D Generation. ECCV 2024.}

^{[9] Comp4D: Compositional 4D Scene Generation. arXiv 2403.16993.}

^{[10] Language Segment-Anything. https://github.com/luca-medeiros/lang-segment-anything}

^{[11] HexPlane: A Fast Representation for Dynamic Scenes. CVPR 2023}

^{[12] HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting. CVPR 2024}

^{[13] InterFusion: Text-Driven Generation of 3D Human-Object Interaction. ECCV 2024.}

^{[14] Disentangled 3d scene generation with layout learning. ICML 2024.}

^{[15] Gala3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting. ICML 2024}

工程AvatarGOICLR 2025