AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
从文字生成三维世界的场景有多难?
试想一下,如果我们要 “生成复活节岛的摩艾石像”,AI 怎么才能理解我们的需求,然后生成一个精美的三维场景?
斯坦福的研究团队提出了一个创新性解决方案:就像人类使用自然语言(natural language)进行交流,三维场景的构建需要场景语言(Scene Language)。

项目主页:https://ai.stanford.edu/~yzzhang/projects/scene-language/
文章地址:https://arxiv.org/abs/2410.16770

64 个黑白相间的格子 按规则排列的 32 个棋子 每个棋子的独特造型






用户偏好测试中获得 85.65% 的偏好,相比现有方法提高了近 7 倍; 在物体数量控制方面,测试集中的准确率达到 100%,而现有方法只有 11%。

