Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

开创全新通用3D大模型,VAST将3D生成带入「秒级」时代

生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。

传统 3D 建模涉及游戏、影视、建筑等多个行业,普遍依赖专业人员手动操作,生产周期短则几天,多则以月为单位,单个 3D 模型的创建成本至少需要几千元。生成式 AI 技术在 2D 图像生成领域的成功经验,让人们看到了 AI 在变革 3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启,但当前市面上的 3D 生成类的 AI 技术仍然存在各种不足,大家都在期待出现一个让自己眼前一亮的产品。

2021 年 1 月初,OpenAI 发布 DALL・E,并以输入文字 prompt「一把牛油果形状的扶手椅」,丰富的形象、清晰的结构标志着文字生成图片的技术走向成熟。

MIT 科技评价道:「这把牛油果扶手椅可能是 AI 的未来(This avocado armchair could be the future of AI)」

图片

Prompt(提示词):an armchair in the shape of an avocado. 图源:OpenAI

2023 年 12 月,机器之心体验了 VAST 自研的 3D 大模型 Tripo,当经典的「牛油果手扶椅」以精致的形态快速丝滑地在眼前生成,我们立刻意识到,生成式 AI 迎来了又一个里程碑时刻。

图片

Prompt(提示词):avocado chair.  图源 TripoAI

VAST 是谁?

经过一番搜索,我们发现,最近走红的两项 3D 生成技术 Wonder3D 和 CSD 都与这家公司有关。

不久前,一个名为 Wonder3D 的开源项目被开发者发掘,它能够在 3 分钟内从单个图像重建高保真纹理网格。在开源平台 GitHub 上,这个项目短时间内就斩获了 3.3K Github Star:

图片

体验链接:https://huggingface.co/spaces/flamehaze1115/Wonder3D-demo

与此同时,一项利用图像扩散模型实现 3D 生成的理论突破成果「CSD 」也引发了众人关注:

图片

VAST 此前仅有的公开亮相是创始人在图形学盛会 SIGGRAPH 五十周年庆典中进行的 Keynote 演讲。通过当时的报道可以了解到,VAST 是一家专注于通用 3D 大模型的技术研发及产品落地的初创公司。

图片

作为首位在 SIGGRAPH 发表主题演讲的中国创业者,VAST 创始人宋亚宸提到,VAST 的目标是减少制作高质量 3D 资产和环境所需的专业知识和成本,让 3D 内容生成变成一件更容易的事。

「3D 技术代表了下一个前沿方向,开启了沉浸式表达的新维度,我们相信 AI 可以让任何人创造出令人惊叹的 3D 内容,且不受制于想象力之外的任何因素。」

作为一家初创公司,VAST 的创始人为何能够与业内巨头英伟达、索尼、Unity 的掌门人同台演讲?它们又是如何推动了 Wonder3D 和 CSD 这样的技术突破?

带着这份好奇心,机器之心拜访了 VAST 在北京的办公室。

了解过团队情况后,我们发现 VAST 可以说是「卧虎藏龙」:

算法团队成员清一色来自海内外的顶尖高校和技术大厂,具有丰富的人工智能及图形学经验。

CTO 梁鼎师从戴琼海院士,曾担任商汤通用视觉和语言大模型发起人和垂类语言大模型负责人,著有论文 40 多篇,引用 7000 次,国内专利 100 多项,海外专利 14 项。

首席科学家曹炎培师从胡事民院士,前腾讯 ARC Lab 和 AI Lab 3D 方向专家,拥有论文 40 多篇,近期在 3D 生成方向的相关成果包括 Dream3D、DreamAvatar、 Sparse3D、HiFi-123、TGS 等。

还有一位出生于 97 年的青年科学家郭元晨,他是清华大学博士生,师从张松海副教授,也是知名 3D 生成开源项目 threestudio 的发起者、核心贡献者。该项目已经在 GitHub 社区收获了 4.4K 星标,是目前为止功能最完整、使用最广泛的 3D 生成代码框架。

threestudio 地址:https://github.com/threestudio-project/threestudio/

随后,VAST 和机器之心聊了聊他们正在进行的技术探索。

AI 在 3D 生成领域的壁垒,如何打破?

我们聊到的第一个问题是:在 3D 内容的生成上,AI 还面临着哪些挑战?

要理解这个问题,首先需要理解 3D 内容制作的特殊性。

数字 3D 内容起源于 20 世纪 60 年代的计算机图形学,迄今已衍生出众多细分领域。一般来说,完整的 3D 生产管线涵盖概念设计、3D 建模、纹理 / 材质、动画和渲染等多个环节。

传统流程中,3D 数字内容的生成均由积累⻓时间学习和⼯作经验的专业艺术家进行创作,加⼊了⼤量的⼈⼯经验设计,且不同艺术家⼯作流程不同,没有绝对统一的标准。对于这些资深的专业 3D 创作者来说,3D 内容生成也是一项非常复杂且耗时的工作。

此外,3D 数字内容表达的多样性,也为 AI 的学习过程增添了更多挑战。多边形⽹格、细分曲⾯、⻣骼动画、顶点动画、物理模拟动画,不同的材质涉及不同的渲染管线。表达方式的不统一,导致 3D 内容的制作本身比 2D 更具挑战性。

以我们熟悉的视觉模型和语言模型为例,它们会通过对预训练数据的「学习」来摸索规律,最终展现出一种非常接近「创造」的能力。实现这种学习能力的前提是图像、视频、语音、文字均有比较通用的表示形式。

对于现有的生成式大模型来说,3D 数字内容就像是一种很新的「语言」体系。因此,想让 AI「学会」生成媲美人类水准的 3D 模型,同时保证速度,并不是一件容易的事。

已取得阶段性突破的研究大多遵循 2D 优化路线:利用已有生成模型的 2D 生成能力,通过多视角优化将生成维度提升到三维。

斩获了 ECCV 2020 最佳论文荣誉提名的 NeRF(Neural Radiance Fields,神经辐射场渲染)在多视图重建静态三维场景方面获得了重要进展。这项基础理论的突破开启了新的一波 3D x AI 热潮,在此基础上,有研究者引入了擅长文本到图像生成的扩散模型,比如 Google 去年发布的 DreamFusion 算法,提出采用「Score Distillation Sampling」实现从文本到 3D 的生成。DreamFusion 的优点是几乎不需要事先训练,实现了在没有 3D 数据的情况下生成物体 3D 表示,缺点是速度慢(长达数个小时)。

OpenAI 在去年同期发布的 Point-E 则采用了在 3D 数据集训练的方案,还强调了「可以用单块 NVIDIA V100 GPU 在一到两分钟内生成 3D 模型」,但它在从文字到 3D 的转换过程中偶尔还是无法理解文本叙述的内容,导致生成的形状与文本提示不匹配,而且生成结果的精细度不足。

总之,沿袭此路线的后续研究很多,但始终没有一个方案能兼顾模型的生成质量、速度、多样性和可控性。

「通用 3D 大模型」的探索之路

知名计算机科学家 Rich Sutton 教授曾在 2019 年的《The Bitter Lesson》文章中给出过一个论断:对于 AI 模型的训练来说,要在短期内有所提升,研究人员可以利用专门领域的人类知识。但如果想要长期地获得提升,更好地利用计算能力才是王道。

正如早期的 CV 领域,普遍认为只要设计出更好的特征描述就可以持续进步,但后来大获成功的深度学习方法仅使用卷积或注意力机制就能得到更好的效果。其中 ImageNet 等海量图像数据集、GPU 提供的强大计算能力,以及 CNN、Transformer 等高可扩展性的模型架构起到了至关重要的作用。

VAST 认为,AI 要想在 3D 生成领域获得长足发展,同样需要跳出对人类知识的依赖,凭借更庞大的数据和更多的计算「学习」一种「通用方法」。

具体到 3D 领域,让 AI 突破瓶颈获得「通用能力」的方法论又是什么呢?

在 VAST 看来,这个目标可以从三个方向的工作入手:表示、模型和数据。

充分利⽤算⼒的关键,最重要正是在于找到合适的「表示」。⽐如 3D 内容制作中常用三⻆⽹格来模拟复杂物体的表面,这种表示对 GPU 渲染算⼒友好,但是对深度学习算法来说并不够友好。

VAST 希望寻找一种更加灵活、利于计算的 3D 统一表示,同时兼容现有的图形管线。

在最近的论文《SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes》,他们提出了一种新的动态场景表示方法,通过将场景运动和外观分解为稀疏控制点和稠密的 3D Gaussians,显著提高了动态场景的可编辑性和渲染质量,在新视角合成和保持外观的运动编辑方面均显著优于现有方法。

另外一项研究《Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers》则探索了基于三平面(triplane)和高斯泼溅(3D Gaussian Splatting)融合的 3D 表示,利用高度可扩展的 Transformer 架构即可实现 2 秒内的高质量图生 3D。

此外,探索「3D tokenizer」也是一种不错的思路。此前的一项研究表明,在相同的训练数据、模型大小和训练预算条件下,如果利用良好的视觉 tokenizer,掩码语言模型在图像和视频基准的生成保真度和效率方面同样可达到与扩散模型相同的水准。对于 3D 生成任务来说,将 3D 表示转化为与语言 token 相近形式的 token 表示,或许有助于将现有的理解和生成大模型应用在 3D 领域。

「模型」层面,VAST 近期的多项研究都探索了如何充分利用大模型在其他模态下的先验、设计准则、训练经验,以提升模型对 3D 数据的学习能力。

比如近段时间爆火的 Wonder3D 就创新地提出了复用强大的 2D 图像生成模型同步生成多视角一致法向和 RGB 图,实现了 2 分钟高质量图生 3D。他们利用多视角法向图表示 3D 几何信息,从而可以有效利用大量 2D 数据先验。

此外,VAST 还在最新的一项研究「UniDream」中提出了可输出具有高质量 PBR 材质、可重光照 3D 模型的多阶段文生 3D 框架。这一框架分为三个组成部分:1. 复用强大的 2D 图像生成模型,以文字为条件,同步生成解耦的多视角一致的法向和基础色;2. 结合在大量 3D 数据训练的可泛化 3D 重建模型,从多视角图片生成基础 3D 先验;3. 利用材质解耦的 SDS 优化方法,得到最终具有高质量几何和 PBR 材质的 3D 模型。

「数据」层面的挑战同样不容忽视。由于优质、原生、多样化的 3D 数据集资源的稀缺,模型的最终表现受限,导致可以生成的 3D 内容有限,泛化能力不足。这也是为什么一部分研究者尝试过直接用 3D 数据集进行训练和微调模型,但都没能取得太理想的效果的原因。

针对这个问题,VAST 自 2023 年初成立以来一直不断积累在 3D 数据上的优势,目前已拥有全世界最大的 3D 高质量原生数据库(千万级别)。

基于千万 3D 原生数据训练的大模型

已有落地产品

经历了近一年的探索,VAST 在今年 12 月已经完成了通用 3D 大模型 Tripo 的研发。

                                 Tripo AI Fantasy: Launched,与艺术家Rui Huang共创

Tripo 基于海量 3D 高质量原生数据库训练,是一个数十亿参数级别的 3D 大模型。得益于 VAST 在「通用 3D 大模型」路线上的技术探索,Tripo 在生成的质量、速度、成功率上行业领先。目前,已经实现 8 秒钟生成带纹理 3D 网格模型,可以进入传统管线进行二次编辑和调整。在此基础上,可以再用5分钟的时间进行优化,优化后的 3D 模型可以接近人类手工制作的 3D 模型质量,成功率超过 95%。

Tripo 也已经在 12 月 21 日正式上线,目前支持「文生 3D」和「图生 3D」两种能力。

前往 VAST 官网免费体验 Tripo 3D 生成能力:www.tripo3d.ai

我们可以观察到, Tripo 有着较强的泛化能力,不管是写实、风格化任务,还是结构复杂的幻想生物,也能在短时间内完成,展现出了在 3D 创意内容方面的巨大潜力。

图片

图片

图片图片图片图片

随着对高质量数据集的更深入利用和算法的不断进步,Tripo 未来有望在极短时间内创造出质量媲美人工建模水准的作品。

3D 生成,何时迎来「ChatGPT 时刻」?

在与 VAST 技术团队的交流中,我们发现,在领先业界进行通用 3D 大模型的探索之外,这家公司在产业化探索上同样做到了「快人一步」。

不到一年时间内,VAST 已经搭建起了针对国内外 B 端和 C 端用户的端到端产品矩阵,并与数十家海内外游戏、动画、工业、云计算等行业领军企业在 3D 数据及 3D 内容生成等领域建立了战略合作关系。

放眼未来,VAST 的「野心」不止于此。成立之初,这个团队已经定下目标:让任何人都可以成为「超级创作者」,充分实现自己的创意。

需要承认的是,目前的 AIGC 3D 技术距离目标还需要一段探索期。但在这次技术浪潮中,VAST 已经成为了从 0 到 1 的推动者之一。下一步,VAST 将攻克来自真实世界的更多难题。

在与 VAST 团队的交流中,我们充分感受到了这种坚定的技术热情:

「VAST 相信,当通用 3D 大模型的能力逐渐增强,用户进行 3D 创作的门槛将不断降低,真正的 3D 内容大爆发时代必然会到来,这就是属于 VAST 这群年轻人的『OnePiece』。」CEO 宋亚宸表示。

目前,VAST 还在构建一个交互式 3D 内容平台,希望为全世界的专业人士和业余爱好者打造一个共享创作、发现作品和访问定制 3D 资产的交流中心。

或许在不久之后,3D 赛道也会出现像「ChatGPT」这样的现象级产品,而 VAST 这家年轻的中国初创公司格外值得期待。

产业VAST
1
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机图形技术

图像数据处理、计算机图像(英语:Computer Graphics)是指用计算机所创造的图形。更具体的说,就是在计算机上用专门的软件和硬件用来表现和控制图像数据。

图像重建技术

通过物体外部测量的数据,经数字处理获得三维物体的形状信息的技术。图像重建技术开始是在放射医疗设备中应用,显示人体各部分的图像,即计算机断层摄影技术,简称CT技术,后逐渐在许多领域获得应用。主要有投影重建、明暗恢复形状、立体视觉重建和激光测距重建。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
文本到图像生成技术

文本到图像生成是从文本描述或标题生成图像的任务。

推荐文章
暂无评论
暂无评论~