三维重建中，transformer是怎么学习2D图像的深度值的？

是用双目立体视觉？对训练集有特殊要求？比如怎么分辨一张2D图像中的棒子，是竖直摆放，还是斜着摆放但处于特定位置导致拍出来看像竖直的摆放。

望采纳

transformer在三维重建中学习2D图像的深度值通常是通过单目视觉来实现的。它会计算图像中物体之间的几何关系，并利用这些信息来估计深度值。对于训练集，Transformer并不对图像有特殊要求，只需要提供大量带有深度信息的2D图像即可。在训练过程中，Transformer会根据图像中物体的几何关系来判断它们的深度值。

比如cvpr2022的GuideFormer: Transformers for Image Guided Depth Completion