Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者蒋楠是北京大学智能学院二年级博士生,指导教师朱毅鑫教授,与北京通用人工智能研究院黄思远博士联合开展研究工作。他的研究重点是人-物交互理解和数字人的动作生成,并于ICCV,CVPR和ECCV等顶会发表多篇论文。

近年来,人物动作生成的研究取得了显著的进展,在众多领域,如计算机视觉计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而,现有工作大多只关注动作本身,以场景和动作类别同时作为约束条件的研究依然处于起步阶段。

为了解决这一问题,北京通用人工智能研究院联合北京大学北京理工大学的研究员提出了一种使用自回归条件扩散模型的动作生成框架,实现真实、带有语义、符合场景且无长度限制的动作生成。此外,文章发布了大规模人物 - 场景交互数据集 TRUMANS,包含准确且丰富的针对人物动作以及三维场景的标注信息。

图片

  • 论文链接:https://arxiv.org/pdf/2403.08629
  • 项目主页:https://jnnan.github.io/trumans/
  • 代码、数据链接:https://github.com/jnnan/trumans_utils

研究概述

图片

                           图 1. 人物 - 场景交互动作生成方法和 TRUMANS 数据集

与场景物体的交互是人们日常活动的重要组成部分,例如坐在椅子上、拿起瓶子或打开抽屉等动作。如今,仿真人类肢体动作已成为计算机视觉计算机图形学、机器人技术人机交互等领域的一项重要任务。生成人体动作的核心目标在于创造自然、逼真且多样化的动态模式。深度学习技术的兴起使人体动作生成方法得到飞速发展。人体建模技术的重大突破也使构建庞大的人体动作数据库变得更为便捷。基于这些进展,近年来以数据为驱动的人体动作生成技术越来越受到研究界的重视。

目前,多数动作生成的方法以语义作为控制变量,在给定交互物体 [1] 和场景 [2] 的条件下生成动作的研究仍处于起步阶段,这主要由于缺乏高质量人体动作与场景交互数据集。现有的真实场景数据集在人体动作捕捉质量方面仍有不足。尽管通过 VICON 等设备录制的动作捕捉数据集能够带来质量的提升,但这些数据集缺乏多样化的 3D 场景中人与物体的交互。最近,使用虚拟仿真技术的合成数据集因其低成本和高适应性而引起研究者们的关注。

针对现有方法的不足,本文提出了一种融合场景和语义信息的动作生成框架,由自回归的扩散模型作为驱动,能够在给定动作类别和路径点的条件下,生成符合场景约束的人物动作。为了获取场景中的动作数据,本工作发布了一个全新的人物 - 场景交互数据集 TRUMANS,包含在真实世界捕捉的 15 小时动作数据,并合成到 3D 虚拟场景中,覆盖了卧室、餐厅和办公室等 100 个场景配置。TRUMANS 包含寻路、物体操作、及与刚性和铰接物体的交互等全面的日常行为。

动作生成框架

图片

                             图 2. 本文提出的动作生成框架使用自回归机制,将场景和动作类别作为条件控制动作的生成。

本研究提出的方法采用自回归的方式逐段生成动作。段内的起始动作源于上一段末尾,后续动作由扩散模型生成。为了使生成的动作符合场景约束,作者基于空间占有网格提出一个局部场景感知器,将每段动作终点附近环境的特征编码,并纳入动作生成模型的条件。为了将逐帧的动作标签作为可控条件纳入,动作信息编码器将时间信息整合到动作片段中,使得模型可以在任意时刻接受指令,并生成符合给定动作标签的运动。

本文提出的方法可以支持路径轨迹约束以及精确的关节位置控制。由于本文方法采用了自回归逐段生成的机制,路径和关节约束可以通过为每段动作生成设定子目标的方式实现。对于行走动作控制,每个子目标描述了当前段末尾人物骨盆在水平面的预设位置。根据当前段的起始和终止位置之间的场景信息,模型生成包含骨盆运动轨迹在内的全身动作。例如,当子目标位于椅子上时,需要让角色坐下。对于涉及物体抓握的动作,手部的位置控制也使用相同的技术。例如生成抓取瓶子或推门等动作时,将手部关节位置设为子目标,并由用户设置在物体上的期望位置。模型将关节上的噪声归零并补全其余部分的人体动作。进一步的精细接触通过优化手与物体的相对位置的方式实现。

本地场景感知器用于获取本地场景几何信息,并将其作为运动生成的条件。具体来说,给定一个场景,首先生成一个全局占用网格,每个单元格被分配一个布尔值表示其是否可达,1 表示可达,0 表示不可达。本地占用网格是以当前循环节的子目标为中心的三维网格,垂直范围内从 0 米到 1.8 米,方向与第一帧中角色骨盆的偏航方向对齐。本地占用网格的值通过查询全局占用网格获取。本文提出使用 Vision Transformer (ViT) 对体素网格进行编码。通过沿 xy 平面划分本地占用网格,将 z 轴视为特征通道来构建 Token,并将这些 Token 输入到 ViT 模型中。场景经过 ViT 编码后的输出被用作动作生成模型的条件。

与之前基于单一动作描述生成完整动作序列的方法不同,本文在生成长期动作时逐帧使用动作标签作为条件。在这个模型中,一个特定动作可能会超过一个循环节,并在多个循环节中继续。因此模型需要理解动作执行的进程。为了解决这个问题,本研究引入了一个进度标识符,用于支持逐帧的动作类别标签。具体实现方式为在原始 multi-hot 动作标签上,对每段完整的交互添加一个 0 到 1 之间随时间线性增长的数。这样的操作使得模型能够应对跨多个循环节的动作,增强生成动作序列的语义完整性和连续性。

数据集

数据方面,本文发布了全新的人物 - 场景交互数据集 TRUMANS,精确地复制了 3D 合成场景到物理环境中,兼具数据质量与规模;包括 15 小时的长序列人体动作捕捉,配套 100 个室内场景,类别包含卧室,客厅和办公室等。尽管场景是合成的,作者通过对每个合成场景的细致还原,确保了人与物体之间的交互保持自然且精确。TRUMANS 动作涵盖日常人物行为,包括寻路、抓取,以及与刚性和铰接物体的交互。为了进一步提高数据的可扩展性,本文应用了一种基于现有数据进行数据增强方式,使得数据集中的物体可以在一定范围内改变位置和尺寸,并自动更新人物动作以匹配变化。

图片

                            图 3. TRUMANS 动作捕捉数据集

图片

                            图 4. 根据变化的物体尺寸自动调整动作,高效扩展数据规模

实验结果

下面是本文所提出的动作生成方法的应用场景示例。

(1)基于给定的路径关键点,本文方法能够生成多样的场景中行走动作,且人物对场景中的障碍物有自然的反馈。
(2)本文方法适用于手持小物体的抓取和交互动作生成。例如走近并抓取放置于桌子上的水瓶,并做出喝水的动作。完成过程中需要根据场景布局调整动作。
(3)基于给定手部运动轨迹,生成满足该轨迹的全身动作,且不与场景中的物体发生冲突。

图片

                             图 5. 动作生成的多样性展示

图片

                             图 6. 给定手部运动轨迹和场景的全身动作生成

图片

                            图 7. 手持小物体的交互动作生成

为了量化本文方法的性能,作者根据交互物体可动与否构建了两套评价体系。对于静态交互物体,本文评测的动作包含坐,躺,以及在场景中的走动。评测指标主要针对动作是否与场景发生穿模,脚部滑动,以及被试对生成质量的主观评价。而对于动态交互物体,本文关注抓握的过程以及后续的交互动作。评价指标量化了动作是否符合给定的类别,动作的多样性,穿模程度,以及被试主观评价。此外,研究还对比了使用 TRUMANS 以及现有的 PROX 和 GRAB 数据集训练得到的动作生成质量。实验结果证实了本文所提方法的优越性,以及 TRUMANS 数据对人物 - 场景交互生成任务带来的全面质量提升。

图片

图片

                                表 1-2. 动态与静态物体交互动作生成结果在不同方法和数据集训练结果的比较
工程CVPR'24 Highlight大规模人物 - 场景交互数据集
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
强生机构

强生公司成立于1886年,是全球最具综合性、业务分布范围广的医疗健康企业之一,业务涉及制药、医疗器材及消费品三大领域。强生坚信健康是活力人生、繁荣社区和不断进步的基础。正因如此,130多年来,公司始终致力于推进健康事业,让人们在每个年龄段和每个人生阶段都保持健康。

http://www.jnj.com/
量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

北京理工大学机构

北京理工大学1940年诞生于延安,是中国共产党创办的第一所理工科大学,是新中国成立以来国家历批次重点建设的高校,首批进入国家“211工程”和“985工程”,首批进入“世界一流大学”建设高校A类行列。

http://www.bit.edu.cn/
相关技术
北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~