2018/08/15 13:21

雪清、罗然、CoolBoy编译

单幅RGB图像整体三维场景解析与重建

不是998！只用一张图就能重建三维场景！今天我们就给大家介绍这项神奇的研究。

这项研究由加州大学洛杉矶分校（UCLA）的六位学者完成，并已被欧洲计算机视觉国际会议（ECCV）采纳。

我们对论文的精华编译如下：

人类视觉的复杂性和丰富性不仅体现在识别可见物体的能力上，而且体现在解释潜在的不确定信息上，包括推断潜在的人类语境在场景中的功能，重建三维分层几何结构，遵守物理约束并保证物理上合理的场景配置。对室内场景的这种丰富的理解是构建智能计算系统的本质，其超越了主要基于外观和几何的识别任务，而是考虑的是对观察到的图像或图案更深层次的推理。

一个有希望的方向是合成分析或“视觉反转图形”这两种方法。在这个范例中，计算机视觉被视为与计算机图形相反的逆问题，其目标是对产生观察图像的物理过程中隐藏的因素进行逆向工程。

图1：通过合成分析这种方法所展现出的整体3D室内场景解析和重建。

3D表示由各个视觉模块初始化（例如对象检测和2D布局估计）。联合推理算法将渲染的法线，深度和分割图之间的差异与输入估计后的RGB图像的差异进行比较，并不断迭代调整3D结构。

我们提出了一种计算框架，将视觉概念作为逆图形，使用随机语法模型（stochastic grammar model），联合解析（jointly parse）单幅RGB图像，重建出由一组CAD模型组成的整体3D结构。

图1示意性地说明了合成分析推理过程。联合推理算法从各种视觉模块中获取建议，并通过比较从恢复的3D结构渲染的各种投影（深度，法线，分割）与从输入图像直接估计的投影来推断3D结构。

具体来说，我们利用一种整体场景语法（Holistic Scene Grammar, HSG）来展现3D场景结构，它表征了室内场景在功能空间和几何空间上的联合分布。HSG捕捉了室内场景中三个必要的隐含维度：1.隐含的人类背景，描述房间布置的功能可见性，2.场景结构的几何约束，3.物理约束，这保证了物理上合理的解析与重建。

我们以综合分析的方式来解决这个联合解析与重建的问题，寻求在深度空间，曲面法线和对象分割图上最小化输入图像与生成的渲染图像之间的差异。

使用马尔可夫链蒙特卡罗（Markov chain Monte Carlo, MCMC）推测出由解析图表示的最优结构，其有效地遍历不可微的解空间，共同优化物体定位，3D布局和隐含的人类背景。实验结果表明，该算法提高了泛化能力，在3D布局估计，三维物体检测和整体场景理解方面明显优于现有方法。

译者注：

功能空间，指房间的层级结构，包含活动分区；几何空间，指CAD模型。

图2: 用HSG分析图展现的一个室内情景。函数空间描述了阶级结构，几何空间表示了空间物体和背景关系。

如图2所示，我们的HSG将场景分解为功能空间中的潜在组（包括活动组的分层结构）和几何空间中的对象实例（CAD模型）。对于功能空间，与仅模拟物-物关系的传统方法相比，我们提出了一种通过在活动组中想象潜在的人来进一步帮助解释和解析观察到的图像来模拟人-物关系的新方法。

对于几何空间，各个对象的几何属性（大小，位置，方向）在我们考虑范围之内，以及它们之间的几何关系（支持关系）。另外，结合物理约束（对象之间的碰撞，违反布局）生成观察图像并进行物理上可信的3D解析和重建。

使用最大后验概率估计(MAP)这种方法，是为了找到解析和重建所观察图像的最优解。在MAP这种方法中，我们可以利用相似度来测量所观察的图像和通过pg投影到各种2D空间上的渲染图像之间的相似性。

因此，可以通过基于后验概率（MAP）这种方法，对MCMC进行采样来不断迭代和细化解析图(pg)。我们通过将重建的3D室内房间与实际的室内房间进行比较来评估我们在大规模RGB-D数据集上的方法。

本文有五个主要的贡献：

1. 我们集成了几何和物理两个维度，用CAD模型解释和重建室内场景。联合优化了3D房间布局和物体的结构，大大提高了在SUN RGB-D数据集 [45] 上进行场景解析和重建的性能。

2. 我们将隐含的人类背景（即功能区）纳入我们的语法模型，通过分组和抽样，能够猜想出每个活动区间中的潜在人类姿势。通过这种方式，我们可以优化场景中可见和不可见 [48] 分量的联合分布。

3. 我们提出了一个完整的计算框架，将生成模型（即随机语法），判别模型（即深度，法线和分割图的直接估计）和图形引擎（即渲染图像）在场景解析与重建中结合起来。

4. 据我们所知，我们最先使用了推测出的深度，曲面法线和对象分割图来帮助解析和重建3D场景（包括房间布局和多个物体）。请注意，文献 [49] 对单个物体使用了类似的中间表示。

5. 通过学习物体之间的支撑关系（supporting relations），所提出的方法消除了先前工作中广泛采用的假设，即所有物体必须立在地面上。模型的这种灵活性可以更好地解析和重建具有复杂对象关系的真实世界场景。

大数据文摘

秉承“普及数据思维，传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术，形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

入门计算机视觉RGB

相关数据

判别模型技术

在机器学习领域，有一种分类方法将模型分为判别模型和生成模型（generative model）两种。判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法，是一种基于概率理论的方法。已知输入变量x，判别模型通过构建条件概率P（y|x）分布预测结果，或试图直接从输入x的空间学习映射到标签{0,1}（如感知器算法）的函数。生成模型则是考虑x与y之间的联合分布。在实际应用中判别模型非常常见，如：逻辑回归（logistic regression），支持向量机（support vector machine），提升方法（Boosting），条件随机场（conditional random fields），神经网络（neural network），随机森林（random forests）典型的生成模型则包括：高斯混合模型（Gaussian Mixture Model），隐马尔科夫模型（hidden markov model），简单贝叶斯（naive Bayes）等。不难看出两者的区别。

来源：Wikipedia

最大后验概率技术

最大后验概率（MAP）估计来源于贝叶斯统计学，其估计值是后验概率分布（posterior distribution）的众数。最大后验概率估计可以对实验数据中无法直接观察到的量提供一个点估计（point estimate）。它与极大似然估计有密切的联系，但它通过考虑被估计量的先验概率分布（prior distribution）使用了增广的优化目标，因此，最大后验概率估计可以看作是规则化（regularization）的最大似然估计。

来源：Murphy, Kevin P. (2012). Machine learning : a probabilistic perspective. Cambridge, MA: MIT Press.

逆向工程技术

逆向工程，又称反向工程，是一种技术过程，即对一项目标产品进行逆向分析及研究，从而演绎并得出该产品的处理流程、组织结构、功能性能规格等设计要素，以制作出功能相近，但又不完全一样的产品。逆向工程源于商业及军事领域中的硬件分析。

来源：维基百科

后验概率技术

在贝叶斯统计中，一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样，后验概率分布是一个未知量（视为随机变量）基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

马尔可夫链技术

马尔可夫链，又称离散时间马尔可夫链，因俄国数学家安德烈·马尔可夫得名，为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

来源：维基百科