AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
近年来,随着扩散模型和 Transformer 技术的快速发展,4D 人体 - 物体交互(HOI)的生成与驱动效果取得了显著进展。然而,当前主流方法仍依赖 SMPL [1] 这一人体先验模型来生成动作。尽管这些方法已取得令人瞩目的成果,但由于 SMPL 在衣物表现上的局限性,以及缺乏大规模真实交互数据的支持,它们依然难以生成日常生活中的复杂交互场景。
相比之下,在 2D 生成模型中,由于大语言模型和海量文字 - 图片数据的支持,这一问题得到了有效的解决。2D 生成模型如今能够快速生成高度逼真的二维场景。而且,随着这些技术被引入到 3D 和 4D 生成模型中,它们成功地将二维预训练知识迁移到更高维度,推动了更精细的生成能力。然而,在处理 4D 人体 - 物体交互时,这些 3D/4D 生成的方法依然面临两个关键挑战:(1)物体与人体的接触发生在何处?又是如何产生的?(2)如何在人体与物体的动态运动过程中,保持它们之间交互的合理性?
为了解决这一问题,南洋理工大学 S-Lab 的研究者们提出了一种全新的方法:AvatarGO。该方法不仅能够生成流畅的人体 - 物体组合内容,还在有效解决穿模问题方面展现了更强的鲁棒性,为以人为核心的 4D 内容创作开辟了全新的前景。
想深入了解 AvatarGO 的技术细节?我们已经为你准备好了完整的论文、项目主页和代码仓库!
论文地址:https://arxiv.org/abs/2410.07164
Project Page:https://yukangcao.github.io/AvatarGO/
GitHub:https://github.com/yukangcao/AvatarGO
触区域定义不准确:虽然 LLM 擅长捕捉物体间的关系,但在与扩散模型结合时,如何准确定义物体间的接触区域,特别是复杂的关节结构如人体,仍然是一个难题。尽管 InterFusion [13] 构建了 2D 人体 - 物体交互数据集,旨在从文本提示中提取人体姿势,但它们仍在训练集之外的情况下,无法准确识别人体与物体的最佳接触部位。
4D 组合驱动的局限性:尽管 DreamGaussian4D [7] 和 TC4D [8] 利用视频扩散模型对 3D 静态场景进行动作驱动,但这些方法通常将整个场景视为一个统一主体进行优化,从而导致不自然的动画效果。尽管像 Comp4D [9] 这类项目通过轨迹为每个 3D 对象单独生成动画,但物体之间的接触建模仍然是一个巨大挑战。
LLM 引导的接触区域重定向(LLM-guided contact retargeting):该方法通过利用 Lang-SAM [10] 从文本中识别出大致的接触部位,并将其作为优化过程的初始化,从而解决了扩散模型在估计接触区域时的难题。
对应关系感知的动作优化(Correspondence-aware motion optimization):基于对静态合成模型中穿模现象较少发生的观察,AvatarGO 提出了对应关系感知的运动优化方法。该方法将物体的运动分为主动和从动部分,并利用 SMPL-X 作为中介,确保人体和物体在交互过程中保持一致的对应关系。这一创新显著提高了在运动过程中对穿模问题的鲁棒性。






























































