机器之心原创

2024/02/20 14:31

大型多视角高斯模型LGM：5秒产出高质量3D物体，可试玩

为满足元宇宙中对 3D 创意工具不断增长的需求，三维内容生成（3D AIGC）最近受到相当多的关注。并且，3D 内容创作在质量和速度方面都取得了显著进展。

尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象，但它们的分辨率受到训练期间所需密集计算的限制，进而导致生成低质量的内容。这就产生了一个问题，能否只用 5 秒钟来生成高分辨率高质量的 3D 物体？

本文中，来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM，即 Large Gaussian Model，实现了从单视角图片或文本输入只需 5 秒钟即可生成高分辨率高质量三维物体。

目前，代码和模型权重均已开源。研究者还提供了一个在线 Demo 供大家试玩。

论文标题：LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation
项目主页：https://me.kiui.moe/lgm/
代码：https://github.com/3DTopia/LGM
论文：https://arxiv.org/abs/2402.05054
在线 Demo：https://huggingface.co/spaces/ashawkey/LGM

想要达成这样的目标，研究者面临着如下两个挑战：

有限计算量下的高效 3D 表征：已有三维生成工作使用基于三平面的 NeRF 作为三维表征和渲染管线，其对场景的密集建模和光线追踪的体积渲染技术极大地限制了其训练分辨率（128×128），使得最终生成的内容纹理模糊、质量差。
高分辨率下的三维骨干生成网络：已有三维生成工作使用密集的 transformer 作为主干网络以保证足够密集的参数量来建模通用物体，但这一定程度上牺牲了训练分辨率，导致最终的三维物体质量不高。

为此，本文提出了一个全新的方法来从四个视角图片中合成高分辨率三维表征，进而通过已有的文本到多视角图像或单图到多视角图像的模型来支持高质量的 Text-to-3D 和 Image-to-3D 任务。

在技术上，LGM 核心模块是 Large Multi-View Gaussian Model。受到高斯溅射的启发，该方法使用一个高效轻量的非对称 U-Net 作为骨干网络，直接从四视角图片中预测高分辨率的高斯基元，并最终渲染为任意视角下的图片。

具体而言，骨干网络 U-Net 接受四个视角的图像和对应的普吕克坐标，输出多视角下的固定数量高斯特征。这一组高斯特征被直接融合为最终的高斯基元并通过可微渲染得到各个视角下的图像。

在这一过程中，使用了跨视角的自注意力机制在低分辨率的特征图上实现了不同视角之间的相关性建模，同时保持了较低的计算开销。

值得注意的是，在高分辨率下高效训练这样的模型并非易事。为实现稳健的训练，研究者仍面临以下两个问题。

一是由于训练阶段使用 objaverse 数据集中渲染出的三维一致的多视角图片，而在推理阶段直接使用已有的模型来从文本或图像中合成多视角图片。而由于基于模型合成的多视角图片总会存在多视角不一致的问题，为了弥补这一域差距，本文提出了基于网格畸变的数据增强策略：在图像空间中对三个视角的图片施加随机畸变来模拟多视角不一致性。

二是由于推理阶段生成的多视角图片并不严格保证相机视角三维几何的一致，因此本文也对三个视角的相机位姿进行随机扰动来模拟这一现象，使得模型在推理阶段更加稳健。

最后，通过可微分渲染将生成的高斯基元渲染为对应图像，通过监督学习直接端到端地在二维图像上来学习。

训练完成后，LGM 通过现有的图像到多视角或者文本到多视角扩散模型，即可实现高质量的 Text-to-3D 和 Image-to-3D 任务。

给定同样的输入文本或图像，该方法能够生成多样的高质量三维模型。

为了更进一步支持下游图形学任务，研究者还提出了一个高效的方法来将生成的高斯表征转换为平滑且带纹理的 Mesh：

更多细节内容请参阅原论文。

产业Large Gaussian Model3D AIGC

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

自注意力技术

自注意力（Self-attention），有时也称为内部注意力，它是一种涉及单序列不同位置的注意力机制，并能计算序列的表征。自注意力在多种任务中都有非常成功的应用，例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系，这种内部关系对于翻译以及序列任务的性能非常重要。

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

光线追踪技术

在计算机图形学中，光线跟踪是一种渲染技术，用于通过将光的路径跟踪为图像平面中的像素并模拟虚拟对象对光线的接收效果来生成图像。该技术能够产生非常高的视觉真实感，通常高于典型扫描线渲染方法，但计算成本更高。

来源：维基百科

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

监督学习技术

监督式学习（Supervised learning），是机器学习中的一个方法，可以由标记好的训练集中学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。训练集是由一系列的训练范例组成，每个训练范例则由输入对象（通常是向量）和预期输出所组成。函数的输出可以是一个连续的值（称为回归分析），或是预测一个分类标签（称作分类）。

来源：Wikipedia

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

北京大学机构

北京大学创办于1898年，初名京师大学堂，是中国第一所国立综合性大学，也是当时中国最高教育行政机关。辛亥革命后，于1912年改为现名。2000年4月3日，北京大学与原北京医科大学合并，组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校，创建于1912年10月26日。20世纪三、四十年代，学校一度名为北平大学医学院，并于1946年7月并入北京大学。1952年在全国高校院系调整中，北京大学医学院脱离北京大学，独立为北京医学院。1985年更名为北京医科大学，1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构，为促进医学与人文社会科学及理科的结合，改革医学教育奠定了基础。

官网，http://www.pku.edu.cn/