2019/11/16 13:31

杜伟报道

图像转换3D模型只需5行代码，英伟达推出3D深度学习工具Kaolin

近年来，3D 计算机视觉和人工智能两个领域都取得了飞快的发展，但二者之间如何实现有效的结合还有很长的路要走。基于此，英伟达于今日推出了 Kaolin PyTorch 库，借助于这个库，只需几步即可将 3D 模型迁移至神经网络的应用范畴。

此外，Kaolin 库还可以大大降低为深度学习准备 3D 模型的工作量，代码可由 300 行锐减到仅仅 5 行。

作为一个旨在加速 3D 深度学习研究的 PyTorch 库，Kaolin 为用于深度学习系统中的可微 3D 模块提供了高效的实现。Kaolin 不仅能够加载和预处理流行的 3D 数据集，而且具有操作网格、点云、符号距离函数和体素栅格（voxel grid）的本地功能，因而可以减少编写不必要的样本代码。

Kaolin 库包含渲染（rendering）、高光（lighting）、暗影（shading）和视图合成（view warping）等几种不同的图形模块。此外，Kaolin 库还支持一系列用于无缝衔接评价（seamless evaluation）的损失函数和评价度量，并提供可视化功能来渲染 3D 效果。重要的是，英伟达创建了包含诸多当前最优 3D 深度学习架构的 model zoo，从而作为未来研究的起点。

此类工具可以使得机器人、自动驾驶、医学成像和虚拟现实等诸多领域的研究者获益。随着人们对 3D 模型的兴趣日益高涨，英伟达的 Kaolin 库可以在该领域产生重大影响。在线存储库（repo）现已拥有很多 3D 数据集，这在一定程度上得益于世界各地所使用的、能够捕获 3D 图像的约 3000 万个深度摄像头。

GitHub 地址：https://github.com/NVIDIAGameWorks/kaolin/

那么 Kaolin 库的具体展示效果是怎样的呢？英伟达给出了以下几个实际应用示例：

在 3D 场景中，通过分类功能来识别对象（图中识别出了椅子）。

3D 组件分割功能可以自动识别 3D 模型的不同组件，这使得「装备」动画角色或自定义模型以生成对象变体更加容易（图左的 3D 模型在图右穿上了衣服、鞋子等）。

图像到 3D（Image to 3D）功能可以根据训练的神经网络识别出的图像来构建 3D 模型（图右生成了椅子的 3D 模型）。

目前，英伟达推出的 beta 版 Kaolin 库包含几项处理功能，用于网格、体素、符号距离函数和点云上的 3D 深度学习。加载的几个流行的数据集（如 ShapeNet、ModelNet 和 SHREC）支持开箱即用。此外，英伟达还实现了几种 3D 迁移和转换操作。

Kaolin 库支持的 3D 任务如下：

可微渲染器（神经网格渲染器、软光栅化器（Soft Rasterizer）、基于可微插值的渲染器以及模块化和可扩展的抽象可微渲染器规范）；
基于单张图像的网格重建（如 Pixel2Mesh、GEOMetrics、OccupancyNets 等）；
点云分类和分割（PointNet、PoinNet++、DGCNN 等）；
网格分类和分割；
体素栅格的 3D 超分辨；
基本的图像处理（如高光、暗影等）。

Kaolin 库的安装与使用

支持的平台

Kaolin 已经获得了 Linux 平台的官方支持，并已在 Ubuntu 18 上进行构建和测试。Windows 和 Mac 平台上也应考虑展开试验性的支持。

安装步骤

英伟达推荐用户在虚拟环境中安装 Kaolin 库（如利用 conda 或 virtualenv 创建的虚拟环境）。Kaolin 要求 Python 版本在 3.6 以上，并且目前在构建时需要启用 CUDA 的机器（即需要安装 nvcc）。

首先创建一个虚拟环境。下例展示了如何为创建安装 Kaolin 库所需要的 conda 虚拟环境：

$ conda create --name kaolin python=3.6 $ conda activate kaolin

接着安装相关依赖（numpy 和 torch）。注意，设置文件并不能自动安装这两种依赖。

conda install numpy

然后安装 Pytorch，这样就可以安装 Kaolin 库了。最后根据 repo 的根目录（即包含 README 文件的目录），运行：

$ python setup.py install

在安装过程中，packman 包管理器将 nv-usd 包下载到~/packman-repo/中，后者包含阅读和编写通用场景描述（Universal Scene Description,USD）文件的必要包。

验证安装

为了验证是否安装完成 Kaolin 库，用户可以启动 python 解释器，并执行以下命令：

>>>import kaolin as kal>>> print(kal.__version)

创建文档

为深入研究 Kaolin 库，用户可以创建文档。根据 repo 的根目录（即包含 README 文件的目录），执行以下命令：

$ cd docs $ sphinx-build . _build

运行单元测试

为运行单元测试，用户可根据 repo 的根目录（即包含 README 文件的目录）执行以下命令：

$ pytest tests/

Kaolin 库的主要功能模块

repo：支持的 3D 资产表征包括三角网格、四边形网格、体素栅格、点云和符号距离函数；

转换：支持所有流行 3D 表征的转换；

实现的模型包括：

DGCNN (https://arxiv.org/abs/1801.07829v1)
DIB-R (https://arxiv.org/abs/1908.01210)
GEOMetrics (https://arxiv.org/abs/1901.11461)
Image2Mesh (https://arxiv.org/abs/1711.10669)
Occupancy Network (https://arxiv.org/abs/1812.03828)
Pixel2Mesh (https://arxiv.org/abs/1804.01654)
PointNet (https://arxiv.org/abs/1612.00593)
PointNet++ (https://arxiv.org/abs/1706.02413)
MeshEncoder: A simple mesh encoder architecture.
GraphResNet: MeshEncoder with residual connections.
OccupancyNetworks (https://arxiv.org/abs/1812.03828)
其他

图形：库为构建可微渲染器提供了灵活的模块化框架，使得单个组件易于实现替换。此外，Kaolin 库还提供了以下可微渲染器的实现：

DIB-R (https://arxiv.org/abs/1908.01210)
SoftRas (https://arxiv.org/abs/1904.01786)
Neural 3D Mesh Renderer (https://arxiv.org/abs/1711.07566)

度量：实现的度量和损失函数如下：

Mesh: Triangle Distance, Chamfer Distance, Edge Length regularization, Laplacian regularization, Point to Surface distance, Normal consistency
Point Cloud: Sided Distance, Chamfer Distance, Directed Distance
Voxel Grid: Interp Over Union (3D IoU), F-Score

参考链接：https://news.developer.nvidia.com/kaolin-library-research-3d/?ncid=so-twit-97892#cid=nr01_so-twit_en-us

入门3D视觉KaolinPyTorch

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

虚拟现实技术

虚拟现实，简称虚拟技术，也称虚拟环境，是利用电脑模拟产生一个三维空间的虚拟世界，提供用户关于视觉等感官的模拟，让用户感觉仿佛身历其境，可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时，电脑可以立即进行复杂的运算，将精确的三维世界视频传回产生临场感。

来源：维基百科

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

神经网络技术

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

插值技术

数学的数值分析领域中，内插或称插值（英语：interpolation）是一种通过已知的、离散的数据点，在范围内推求新数据点的过程或方法。求解科学和工程的问题时，通常有许多数据点借由采样、实验等方法获得，这些数据可能代表了有限个数值函数，其中自变量的值。而根据这些数据，我们往往希望得到一个连续的函数（也就是曲线）；或者更密集的离散方程与已知数据互相吻合，这个过程叫做拟合。

来源：维基百科

图像处理技术

图像处理是指对图像进行分析、加工和处理，使其满足视觉、心理或其他要求的技术。图像处理是信号处理在图像领域上的一个应用。目前大多数的图像均是以数字形式存储，因而图像处理很多情况下指数字图像处理。

来源：维基百科