Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

酷家乐KooLab机器之心

MINERVAS解读:一个可编程的室内图像数据合成系统

本文是对论文《Massive INterior EnviRonments VirtuAl Synthesis》的解读。该论文由浙江大学、酷家乐合作完成。

本文是对论文《Massive INterior EnviRonments VirtuAl Synthesis》的解读。该论文由浙江大学、酷家乐合作完成。

论文链接:https://arxiv.org/abs/2107.06149

在《Massive INterior EnviRonments VirtuAl Synthesis》这篇由浙江大学和酷家乐合作完成的论文中,作者提出了一个大规模室内仿真环境合成系统来帮助完成各种视觉任务中的三维场景修改和二维图像合成。

1、动机

       随着数据驱动技术的快速发展,数据在各种计算机视觉任务中起着至关重要的作用。目前已经有了许多现实和合成数据集来解决不同的问题。但是,还有很多尚未解决的挑战:(1)数据集的创建通常是一个带有手动注释的繁琐过程,(2)大多数数据集仅设计用于单个特定任务,(3)3D场景的修改或随机化很难,(4)商业3D数据的发布可能会遇到版权问题。

       论文介绍了Minervas,这是一种大规模室内仿真环境合成系统,来帮助完成各种视觉任务中的三维场景修改和二维图像合成。特别是,作者设计了一个可编程的在线数据生成流水线,允许用户(1)从商业室内场景数据库中选择场景,(2)通过自定义规则合成不同任务的场景,以及(3)渲染各种图像数据,例如视觉色,几何结构,语义标签。论文设计的系统可以解决不同任务中需要定制大量场景的问题,并通过使用多级别采样器提供用户控制的随机性来帮助用户操纵精细的场景配置。最重要的是,它使用户能够访问具有数百万个室内场景的商业场景数据库,并保护核心数据资产的版权,例如3D CAD模型。作者通过使用合成数据来提升各种计算机视觉任务的性能来证明系统的有效性和灵活性。

2、方法框架

     Minervas主要包括四个步骤,分别是:场景处理(Scene Process Stage)、实体处理(Entity Process Stage)、渲染(Render Stage)、像素处理(Pixel Process Stage),系统流程示意图如下,下面分别介绍这四个步骤:

系统流程示意图

场景处理

        在场景处理步骤中,用户首先从根据用户提供的条件,例如面积,房间数,房间的类型等从商业场景数据集中选取场景。为了支持百万级规模的场景数据库,作者将MongoDB作为基础数据库程序。给定选定的场景,该系统提供了一个场景级别的Sampler来产生新颖的家具排布。具体而言,我们通过考虑到家具间隙,房间流通性,家具关系,对齐等因素,随机移动家具例如改变其位置和朝向等来改变房间布局。每次迭代随机移动后,根据要考虑的这些因素来计算cost值,根据与设定的阈值比较,来决定是否采用这次移动的布局。迭代的数量通常取决于现场家具的数量。用户可以使用此场景级采样器轻松生成各种合理的家具安排。然后将处理的场景发送到实体过程阶段以进行进一步处理。随机扰动布局的结果如下图所示

随机扰动布局


实体处理

       实体过程阶段是为场景中的批处理处理实体而设计的。系统提供一些实体级采样器来随机化每个实体的属性,包括家具(例如CAD模型,材料,变换),光(例如,强度,颜色)和摄像机(例如,相机模型,转换)。根据每个属性的特征,系统对不同属性使用不同类型的分布。例如,系统利用统一的高斯分布来描述连续属性(例如,位置,光),离散属性(例如材料)的分布和其他属性的基于学习的分布。常见的有以下几种属性:

  • 相机:该系统支持各种相机模型(例如正交、透视、全景相机)以及各种相机参数设置(例如相机视角、分辨率等)
  • 轨迹:该系统显示地将轨迹作为一个可移动物体的属性,支持在三维空间中随机生成漫游轨迹,同时也支持用户指定关键点,然后根据关键点生成轨迹
  • 灯光:用户可以控制每一束光的强度和色温,同时还支持白天和晚上的照明模式
  • 材质:采样器根据物料的类别,对内置的材料列表进行均匀采样
  • CAD模型:该系统可以根据模型相似度得到采样概率,来随机替换模型
  • 变换:采样器可以从正态分布或者均匀分布中对给定范围内的旋转和平移进行采样

      此外,此步骤支持导出非图像数据(例如3D结构)来完成特定的任务要求,例如房屋布局评价。非图像数据可以包括除三维网格和材质原始数据之外的任意原数据。实体处理的若干示例如下图所示

材质变换

模型变换

灯光类型变换

      生成的场景会被送到渲染步骤进行处理。

渲染

       在渲染步骤中,系统将用实体处理阶段生成的场景生成2D渲染结果。该系统同时提供基于光栅化和光线追踪的两种渲染器来平衡效率和真实性。该步骤同样有很多参数可以配置,例如样本数和光线反射次数。渲染器支持不同类型的图像数据,例如彩色图像、深度图、法向图、语义分割图和实例分割图,如下图所示。渲染出来的像素级真值可以用于各种室内场景理解的任务。

渲染效果图

     此步骤生成的2D渲染结果会被送到像素处理步骤。

像素处理

      像素处理阶段允许用户对图像数据进行像素级操作。系统提供一些内置的功能,如映射语义标签到所需标签的标签集,模拟不同类型的深度噪声,例如高斯噪声、泊松噪声、椒盐噪声以及Kinect噪声,用户可以对2D渲染结果应用任意定制的图像处理方法。

3、应用探索

       在机器人视觉领域,尤其是室内机器人,室内环境是非常复杂的,针对极为复杂的室内环境,一定需要海量的数据集训练,从而提升室内场景认知以及目标物体识别的能力。而现实数据集的获取受制于人力成本和时间成本的约束,无法覆盖各种Corner Case,为了解决行业长期存在的痛点,酷家乐将Minervas系统在CoohomCloud上线,网址为:https://coohomcloud.com/?pageSource=JQZX#/eus-data-set。Minervas系统中各个步骤实现的功能CoohomCloud均已提供,此外还进行了功能扩展,目前CoohomCloud在提供多种多样的复杂室内环境的同时,还更细致到可以对室内每个物体类型进行编辑(外观,材质,纹理等),并且可以生成各种生活中一些常见和不常见的杂物(液体,灰尘,垃圾,柔性物体,排泄物等),加上光照和相机参数的自由设置,综合各维度的变化,生成几万到几百万的高质量图片的数据集,全面覆盖各种Corner Case,为室内智能体(人工智能及机器人仿真)提供高效解决方案,CoohomCloud平台子产品KoolAI+已入选浙江省经信厅公布的“2021年度浙江省人工智能典型应用场景”。概括来说,其具有以下四种特点:

  • 上亿室内设计方案,八千万室内物体模型,上万种材质纹理
  • 技术领先的渲染引擎,以及最新的光线追踪引擎,可以实现多种光照仿真效果
  • 高性能渲染集群,可以短时间渲染出海量数据集
  • 高质量数据标注,以及空间认知辅助信息

4、总结与展望

       本文介绍了Minervas,这是一个可编程的室内图像数据合成系统。该系统将ECS-D体系架构用于场景表示,并提出用于特定的定制化任务的易于使用且灵活的DSL。此外,系统具有对不同层级数据的领域随机能力,从而增加了合成数据的多样性。将来,作者计划将物理和实时交互式仿真整合到Minervas系统中,以支持在线具身智能体的学习。未来工作的另一个有前景的方向是针对具体任务自动生成更好的合成数据,以最大程度地减少合成数据和现实世界数据之间的差距。这些也正是CoohomCloud正在投入并努力实现的方向,感兴趣的同学可以持续关注CoohomCloud的功能更新。


酷家乐KooLab
酷家乐KooLab

酷家乐前沿技术实验室 (KooLab) 专注于自主知识产权高性能渲染引擎,及家居行业智能 AI 领域工作,致力于将最前沿的科技应用到大家居设计,推动大家居产业变革。我们一起迎接,并感受「所见即所得」的终极家居体验。

产业
暂无评论
暂无评论~