科技中国网欢迎您!

CVPR2020 Oral: 一张照片三维重建你的房间

时间:2020-04-10 13:39:01    作者:admin    来源:原创整理

作者是来自将门计算机视觉社群、香港中文大学(深圳)GAP实验室的韩晓光博士,这次分享的是在其指导下团队在CVPR 2020 Oral的工作:完整三维理解:从单张室内场景图片联合重建房间布局、物体姿态及网格形状。

三维场景理解与重建

从单张图片完整地恢复整个室内场景的几何信息目前仍然是具有挑战性的任务,完整的三维室内场景理解与重建需要预测房间的布局、相机的位置与姿态、图片中单个物体的姿态以及物体几何形状。

想让一个网络学好如此多的任务过于困难,除此之外:

1. 以前的方法或者只解决其中的一个子任务;

2. 或者用多个网络去做多个子任务,然后拼接起来,但各个子网络的学习是独立的;

3. 又或者只关注场景中独立的物体,并没有综合考虑整个室内环境。

我们针对上述三种情况实现了“3个Total”:

1. 整合了场景理解与重建,首次提出了一种端到端的方法从单张室内图像完整重建(Total)房间布局、物体及相机姿态和实例级的几何形状,并取得了不错的效果,如图1;

2. 我们的网络也由多个子网络组成,但它们并不是独立的,我们会对整个网络进行联合训练(Total),让多个子网络分享梯度信息,这是因为房间布局、物体姿态及三维包围盒和物体形状之间有着很强的联系,如果分开训练,后面的子网络不能向前面的网络进行反馈;

3. 室内物体的姿态和位置遵循一定的设计规则,各物体之间的关联关系尤为重要,比如说床头柜与床、桌椅间以及多把椅子之间的关系等等。之前的工作在预测物体的三维包围盒时,一般只考虑单个物体,或者考虑一对一物体间的关系。与本文工作较类似的Mesh R-CNN[1]只是在图片上检测出物体,然后在各物体的图像平面分别重建,并没有考虑物体间的关联关系。在本文方法中,我们考虑物体与房间中所有其他物体间的关联关系(Total),并将其应用到了三维目标检测子网络的设计中。

与SOTA的对比以及消融实验均说明了“3个Total”的重要作用,这使我们的方法在所有子任务上都达到了最先进的水平,详见后面实验分析部分。

三维形状表示

与我们的工作比较类似的研究大多使用体素(voxel)表示三维形状,这种表达方式受限于有限的分辨率,重建出的形状十分粗糙。其中Mesh-RCNN [1]能重建出网格(mesh),但仍然是以体素为中间媒介,重建网格质量差强人意。由于我们在以物体为中心的三维物体网格重建方面有一定的积累,所以我们决定跳过体素,直接来做物体的网格,并且改进了最新的TMN[2]方法,这也是除了“3个Total”以外本文最重要的贡献。在物体网格生成任务中,我们提出了一种新的密度感知拓扑修改器。该方法直接解决了TMN [2]的主要瓶颈问题,即需要严格的距离阈值来删除与目标形状距离较远的面,这使我们的方法对复杂背景下不同形状的室内物体具有较强的鲁棒性。

网络结构

图2(a)给出了本文方法的概述。该网络由三个模块组成:布局估计网络(Layout Estimation Network-LEN)、三维目标检测网络(3D Object Detection Network -ODN)和网格生成网络(Mesh Generation Network -MGN)。对于输入单张图像,我们首先用2D检测器(e.g. Faster R-CNN)预测二维物体包围盒。LEN将整个图像作为输入,生成世界坐标系下相机姿态和三维房间布局包围盒。根据二维目标检测结果,ODN在相机坐标系中检测三维物体包围盒,而MGN在以物体为中心的规范坐标系中生成由网格表示的三维几何形状。我们通过将所有网络的输出信息嵌入到场景中,进行联合训练和推理,从而重建出完整的场景。其中,来自MGN的三维物体网格将根据ODN及 LEN生成的物体与相机坐标系线性变换,从网格规范坐标系转换至世界坐标系进行联合训练。图2(b)给出了LEN和ODN坐标系转换的参数化图示,详细内容请参考我们的文章和补充材料。

相关文章



2015-2018 Copyright © 科技中国网

技术支持:科技中国网