Phone 15/Pro 系列发售在即,但一个有趣的现象是,在 iPhone 成为一种象征的同时——想想过去半年来你听过多少次「iPhone 时刻」—— iPhone 作为手机本身却大有泯然众生之势。苹果公司认为下一代的革命性产品是 Apple Vision Pro,其无手柄的设计引发了大量讨论。Apple Vision Pro 挑战了我们对 XR 用户体验的传统认知,提供了一种全新的、更为直观的交互方式。然而,尽管去手柄化在某些场景下有其独特的优势,但手柄在 XR 交互方式中的重要性仍然不容忽视。
手柄作为一种成熟且被广泛接受的交互工具,在需要精确输入或复杂操作的情况下,例如一些游戏或绘画、手术模拟等专业训练中,通常可以提供更好的体验。此外,手柄能为用户提供触觉反馈,这是目前无手柄方案难以实现的,而触觉对于创建沉浸式体验又至关重要。
不过,传统的手柄往往体积较大,重量较重,长时间使用可能会引起用户的疲劳。因此,许多 XR 厂商一直致力于研发更轻、更小巧的手柄设备,以提升用户体验。
但是,轻量化手柄的研发面临多个难点,其中一项主要的挑战便是高精度追踪的问题:首先,小型化设备限制了传感器的大小和数量;其次,由于手柄小,用户可能会更频繁地做出快速和复杂的手势,这也对追踪系统的稳定性和准确性提出了更高的要求。此外,高精度的追踪通常需要进行更多的计算,因此功耗管理也是小型化手柄研发中的一个重要挑战。基于 AI 方面的积累,PICO 创新性地提出了一种多模态的手柄追踪解决方案,成功在小型化手柄上实现了稳定的高精度追踪。「我们在人手握姿的实时估计方法、多模态下的数据融合方法,以及基于 IMU(Inertial Measurement Unit,惯性测量单元)的高精度预测方法等方面,取得了一些突破创新,」PICO 研发团队表示:「提出了一种多模态的手持控制器追踪方法,能够提供更广的追踪范围,减小追踪盲区,为用户带来更好的体验。」PICO 此次自研的 Centaur多模态追踪算法,将光学追踪算法与 CV 模态下的手柄追踪算法融合,其中光学追踪算法通过识别手柄中 LED 灯发射出的红外光(IR),实现对手柄的定位追踪;CV 模态手柄追踪算法,能够在手柄上的 LED 灯被遮挡时,也即在极少 IR 或没有 IR 的情况下,通过追踪裸手的特征,准确还原出手柄控制器的 6DoF 信息,从而保持对手柄的稳定追踪。Centaur 多模态融合算法,将视觉信息与惯性信息融合,得到手柄位姿及速度的最优估计。具体说,多模态追踪算法使用从头显摄像头、内置 IMU 模块、3-DOF 模块、深度学习手势检测及追踪模块、光学定位模块采集到的多种模态数据,分析手部特征、手柄运动信息、LED 位置,以及全局上下文信息,进行精准的位姿预测和估计。最后,通过多帧融合滤波器对所有获取的信息进行融合计算,产生高精度、高帧率的手柄位置、旋转及速度信息,供上层应用使用。光学追踪算法在 XR 产品中有着广泛的应用,主要用于实现精准、低延迟的位置和运动追踪。这些算法通常利用摄像头(或其他光学传感器)捕获的图像数据,通过识别和追踪特定的视觉特征,如颜色、纹理、形状等,来计算物体(如用户的头部、手部或控制器)的位置和运动。PICO 采用的是基于红外光(IR)的主动式光学定位追踪方案,这种技术可以通过头显摄像头,观测到手柄上发射的 IR,并通过光斑检测和多视图几何原理来计算手柄的位置和姿态。与传统的电磁定位和超声波定位相比,具有高精度、低成本、低功耗等优点。针对小型化手柄的一系列工程和技术挑战,PICO 组建了一个跨部门的攻关小组,包括交互感知内部的数据交互团队、裸手追踪算法团队和手柄追踪算法团队。经过多次论证后,团队设计了一套基于神经网络的多模态手柄追踪框架,其核心技术即上文提到的 Centaur 多模态追踪算法,该框架融合了 IMU、光学传感器和手部图像这几种不同模态的信息,在手柄被遮挡的情况下,裸手追踪能够提供更加精准的观测,同时手柄给手部追踪提供更准确的预测,两者深度融合,相互辅助。Centaur 多模态追踪算法,融合了 IMU、光学传感器和手部图像等不同模态的信息,在手柄被遮挡的情况下,裸手追踪可以补充提供精准的观测。裸手追踪(hand-tracking),也叫手部追踪或手势追踪,通过直接捕获和分析用户的手部姿态、位置和运动,使用户可以在 XR 环境中直接用手势进行交互,无需穿戴特殊设备(如手套或指环),也免去了学习复杂的控制器操作过程,大幅降低了使用门槛,因而在 XR 领域备受关注。不过,尽管裸手追踪技术能够提供更加流畅、自然的交互体验,但也面临诸多挑战。例如,裸手追踪需要高精度和低延迟,以便能够实时准确地捕捉用户的动作。此外,光照条件、背景干扰、用户的手部形状和颜色差异等因素,也可能影响裸手追踪的表现。「CV 模态手柄追踪场景下,由于手柄的遮挡,导致裸手视觉特征不明显,常常引发追踪失效。」PICO 裸手算法团队成员表示。
「针对该难点问题,我们创新性地融合了 Down-Top 的端到端 6DoF 追踪算法,通过有效利用多目时序的全局上下文信息,比如身体的骨骼信息以及结合时间顺序判断,一次性准确且稳定地预测手部位姿,能够在手柄追踪失效时,及时提供鲁棒的位姿。」在计算机视觉和深度学习领域,Top-Down 和 Down-Top 是对象检测和识别的两种常见策略。Top-Down 通常从全局或更大尺度的视角开始,逐渐向更精细的细节进行;Down-Top 则从小尺度的细节开始,逐渐构建出全局的视图。PICO 团队采用 Down-Top 方案,能够在精度相近的情况下,提高手柄的检出率,从原先的 36% 提升到了 93%。从上图中看,右侧 Down-Top 图中连贯的绿线即表示系统有在持续稳定地追踪。裸手追踪算法团队设计的这个端到端 6DoF 追踪算法,融合了 PICO 研发团队在过去一年多的时间里取得的多项技术突破:- 手部多视角协同自监督学习方法 HaMuCo:利用多视角的信息,通过自监督学习和一致性损失函数,能够在没有大规模 3D 标注数据集的情况下,获得优秀的手部姿态预测结果。这项工作也获得了 ECCV HANDS22 Challenge 第一名。
- 手部姿态预测和图像对齐框架 DIR:DIR 是「解耦合迭代修正框架」(Decoupled Iterative Refinement)的缩写,该框架解决了二维视觉特征空间和三维节点特征空间的耦合问题,DIR 在二维视觉特征空间中处理图像信息,在三维节点特征空间中处理手部姿态信息。DIR 使用节点特征作为二维和三维空间之间的「桥梁」,使得这两个空间可以相互沟通,从而实现特征增强和姿态修正。在最具挑战性的双手数据集上取得了 SOTA 精度,在处理复杂数据集和泛化到新情况方面也表现出色。该工作入选 ICCV2023 Oral 论文,足以证明其质量。
图片来自 DIR 论文:https://arxiv.org/abs/2302.02410- 从单视图中重建双手姿态的新方案:由于单视角固有的歧义性以及双手具有相似的外观、自遮挡严重等问题,从单视图中重建双手是一项巨大的挑战,团队转变思路,首先构建了一个双手互动的先验,然后将互动重建任务定义为从这个先验中进行条件采样的任务。具体说,团队通过运动捕捉(MoCap)系统构建了一个大规模的双手交互数据集,然后利用这些数据建立了一个基于 VAE 的双手交互先验网络,再利用 ViT 从单视角图像中提取特征,并充分融合双手交互先验的相关性,从而获得了双手重建的 SOTA 结果。
- XR 场景全身姿态估计技术:提出了一个能够建模全身关节点相关性的两阶段框架,基于 XR 场景下能够获取的有限的跟踪信息(包括关节点位置特征、关节点旋转特征以及输入特征),回归出准确、平滑和合理的全身姿态序列。模型在虚拟数据集(AMASS)和实采数据集上的实验中,展现出了优于现有方法的准确率、平滑性和物理合理性,极大地提高了用户的沉浸式体验。
「这是团队协作的成果,」PICO 攻关小组负责人表示:
「数据交互团队基于高精度动作捕捉系统完成了数据采集和标注;裸手追踪算法团队设计了 SOTA 的端到端 6DoF 位姿估计模型,提升了手部追踪的稳定性;手柄追踪算法团队则提升了光学追踪的稳定性和整个算法框架的实现,多模态的手柄追踪算法在手柄被遮挡情况下仍然能保持稳定追踪。」「光学追踪和裸手追踪这两大类算法,从追踪框架上不是独特唯一,也不是我们最先研究的,但是将它们融合起来并产品化,截至目前我们是第一家。」PICO 最新推出的小手柄,采用无灯环设计,配合头显进行双手空间定位捕捉,通过头显的 inside-out 光学追踪定位原理,计算出手柄的空间运动轨迹,并结合 6 轴传感器完成无线控制器的 6DoF 捕捉,进而结合控制器的物理按键、马达反馈、摇杆等反映到虚拟现实世界中,用于增强虚拟现实人机交互的能力,提升沉浸感。PICO 最新一代无灯环小手柄。新手柄 LED 灯减少且均在手柄内,更容易被手部遮挡,因此对手柄追踪的鲁棒性带来重大挑战。相比上一代手柄,无灯环小手柄更加轻巧便携,重心偏手心位置(电池和马达更集中),握持手感更好;双手柄的相互干涉概率更小,整体交互会更自然。重量相比上一代手柄轻约 15g,高度减少 50%。追踪效果方面,采用自研 Centaur 多模态追踪算法方案,有效解决了双手遮挡情况下的手柄追踪精度问题,毫米级追踪精度,延迟<5ms。能耗方面,根据 PICO 内部测试的结果,在每天运动 1 小时的情况下,可以持续工作超过 80 天。实际上,在 PICO 4 早期的研发阶段,团队就有过制作无灯环小型手柄的想法。2022 年 6 月,小手柄研发项目正式启动后,团队探索过多种追踪方案,包括自追踪和其他传感器的追踪方案,考虑到精度及成本等因素,最终决定以光学追踪为基础,结合裸手追踪的最新技术,探索出了一条多模态的追踪方案。「以高精度光学位姿解算和裸手追踪为基础,实时估算手柄和手掌的相对位置关系。在光学解算失效的情况下,使用裸手检测的结果还原出手柄控制器的 6DoF 信息。」PICO 裸手追踪算法团队成员表示。「这样我们的手柄控制器追踪系统不仅能够使用红外 LED 做到高精度的追踪,也能够利用裸手检测“隔山打牛”,最终实现了抓握圆盘的握持方式下依然稳定的追踪效果,通过了极客玩家的挑剔测试。」小手柄会面临更多低 LED 观测数量下的初始化与追踪问题,从数学上解算难度更大。上图为仅有 3 颗 LED 灯时手柄静止状态下的追踪效果,可以看出,多帧紧耦合比单帧松耦合的结果更加精确,追踪更加稳定,波动显著减小。PICO 的光学追踪和裸手追踪两大类算法,经历了 PICO Neo3 和 PICO 4 两代产品的打磨,对用户需求更了解,技术广度和深度有足够的积累。作为最早将光学追踪产品化的 XR 企业之一,PICO 的光学追踪系统在许多技术点上表现出优势,精度和性能等指标目前处于全球第一梯队。PICO 的裸手追踪技术则在这两年间快速积累,已经可以实现相当精确和稳定的手部和指尖追踪。「在高难度的快速运动场景下,我们通过不断优化端到端的时序模型、千万级高精训练集,以及 MTP(Motion to Photon,动显延迟)测试方案,目前算法延迟与追踪丢失率在全球范围能做到技术领先,给用户在游戏与运动场景带来了流畅且稳定的体验。」如今,数据驱动的 AI 正以前所未有的方式塑造着未来,尤其在 XR 领域,由于硬件和算法持续快速迭代,数据的效率、质量和可扩展性对于开发交互式 AI 算法至关重要。PICO 拥有行业领先的全方位自研软硬件基建,覆盖数据生产平台(含相机阵列与仿真系统)和测试平台等,特别关注高效数据获取、高精度数据标注和数据应用相关的工作,也为技术和产品的研发奠定了坚实的基础。「为了生产高精数据,我们在小手柄裸手姿态数据的高精标注任务中,一方面采用了自研的业内领先的基于相机阵列的多视角手部姿态标注技术方案;另一方面针对该特定任务进行了预重建,进一步提升了手部姿态数据的精度。」PICO 数据交互团队表示。PICO 高精度数据采集与自动标注流程:①采集前,结构光扫描及注册;②阶段一,采集手和手柄空间关系;③阶段二,手柄跟踪及手势标签「我们在数据生产上也提供了多套技术方案,如相机阵列的真实采集与仿真合成平台方案,多种方案结合,有力保障 AI 训练数据的支撑。」当前,XR 领域技术快速更迭,PICO 在光学追踪和裸手追踪两条技术路线上双线布局,表明了其对技术趋势的前瞻洞察力。「裸手+手柄」的融合式交互方案,结合了裸手追踪的直观性和手柄输入的精确性,既能提供自然、直观的体验,又能实现精确、细致的操作,对游戏、教育、医疗、设计等领域具有强大吸引力,有望成为未来 2~3 年行业的主流交互趋势。作为国内最早参与 XR 领域的企业之一,PICO 凭借前瞻性的技术意识和充分的技术积累,确立了其在行业中的领先地位。此次自研 Centaur 多模态追踪算法,申请专利并成功产品化,再加上全方位自研的软硬件基础设施,这些都是技术优势的体现,也是 PICO 能持续领跑行业的关键。在科技产业,寻找创新与保持一致性之间的平衡是挑战也是艺术。一方面,创新性和差异性是推动行业向前发展的引擎,为用户带来更高效、更具吸引力的体验。另一方面,一致性对于确保平稳过渡和降低过渡成本至关重要。PICO 的融合式交互方案巧妙地展现出了这样的一致与创新。正如混合动力汽车为消费者和制造商提供了平滑过渡到全电动汽车的途径。同样,手柄+裸手的融合式交互技术也提供了一条路径,使 XR 行业可以更加平顺地迈向下一阶段。人机交互的设计应当始终以用户为中心,包括那些有特殊需求或身体限制的人。让我们期待 PICO 的这份执著和专注,继续为玩家带来更多超越想象的惊喜。- 高效数据获取 HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning,https://arxiv.org/abs/2302.00988
- 高精度数据标注 Decoupled Iterative Refinement Framework for Interacting Hands Reconstruction from a Single RGB Image,Reconstructing Interacting Hands with Interaction Prior from Monocular Images,https://arxiv.org/abs/2302.02410
- 单视图中重建双手 Reconstructing Interacting Hands with Interaction Prior from Monocular Images,https://arxiv.org/abs/2308.14082
- 数据应用 Realistic Full-Body Tracking from Sparse Observations via Joint-Level Modeling,https://arxiv.org/abs/2308.08855