提升12.6%！VLM让你未见对象的6D姿态估计更准！

编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

0.这篇文章干了啥？

这篇文章介绍了一种名为Horyon的新方法，旨在改善开放词汇的6D姿态估计技术。Horyon通过增加特征图的分辨率和提供更准确的匹配来执行姿态估计的配准，显著提升了性能。实验结果显示，Horyon在具有不寻常对象（如Linemod）和轻微遮挡（如YCB-Video）的场景中表现出良好的性能。消融研究验证了更新的视觉语言模型（VLM）所提供的逐标记表明及新的融合策略对Horyon性能的显著改善。此外，Horyon在泛化能力和对噪声的鲁棒性方面展现了一致的改善。不过，Horyon的局限性在于执行姿态估计时需要深度图和内在相机参数。文章提出通过单目深度估计方法（如DepthAnything）放宽这些数据要求的可能性。对比实验显示，相较于传统方法Oryon，Horyon对于提示质量下降的情况具有更好的适应性，尽管受训练数据提供的提示内容限制。为了增强模型在训练时的提示多样性和描述性，提议在训练过程中引入大语言模型或图像字幕生成器。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：High-resolution open-vocabulary object 6D pose estimation

作者：Jaime Corsetti, Davide Boscaini等

作者机构：University of Trento

论文链接：https://arxiv.org/pdf/2406.16384

2. 摘要

在6D姿态估计任务中，对未见过的对象进行泛化是超级具有挑战性的。尽管视觉语言模型（VLMs）能够使用自然语言描述来支持未见过对象的6D姿态估计，但这些解决方案的表现不如基于模型的方法。在这项工作中，我们提出了Horyon，这是一种基于开放词汇的VLM架构，能够解决仅通过文本提示描述的未见对象的两场景之间的相对姿态估计问题。我们使用文本提示来识别场景中的未见对象，然后获取高分辨率的多尺度特征。这些特征用于提取跨场景匹配以进行配准。我们在包含大量未见对象的四个数据集（REAL275、ToyotaLight、Linemod和YCB-Video）上评估了我们的模型。我们的方法在所有数据集上都达到了最新的性能，在平均召回率上超越了之前表现最好的方法12.6个百分点。

提升12.6%！VLM让你未见对象的6D姿态估计更准！

3. 效果展示

这里展示了来自REAL275 （a）、Toyota-Light（b）、Linemod （c）和YCB-Video （d）的样本姿态结果。所有结果均使用GroundingDino提供的裁剪图和Horyon预测的分割掩模。我们展示了通过将对象模型的3D坐标映射到RGB空间来上色的对象模型。查询图像被加深显示，以突出显示对象的姿态。

提升12.6%！VLM让你未见对象的6D姿态估计更准！

4. 主要贡献

我们对最近的未见对象6D姿态估计方法进行了全面分析，详细描述了它们的要求和操作条件。
我们提出使用一个检测器，通过自然语言描述来定位并裁剪输入图像中的感兴趣对象。尽管操作简单，但有效地减轻了背景混乱和无关对象对用于匹配的特征表明的影响。
我们为基于VLM的特征提取器和解码器模块提供了新的多尺度公式，使得能够提取更高质量的特征用于对应匹配，与之前版本相比，平均召回率提高了12.6个百分点。
我们扩展了评估集，加入了两个新的挑战性数据集，分别包含遮挡（YCB-Video）或小型（Linemod）对象。我们为每个对象提供了文本提示，并将公开这个基准。

5. 基本原理是啥？

这篇文章提出了一种新颖的方法，名为Horyon，用于开放词汇对象的6D姿态估计：

开放词汇对象姿态估计：传统的对象姿态估计方法一般依赖于特定类别的对象模型，难以应对开放词汇（即未见过的或类别多样的对象）。Horyon旨在解决这一问题，能够在开放词汇的场景中进行对象的6D姿态估计。
特征对齐（Feature Alignment）：Horyon引入了特征对齐模块，通过将输入图像特征与支持视图（参考图像）的特征对齐来提高姿态估计的准确性。这一步骤确保了所提取的特征在不同视图之间保持一致，有助于更准确地估计对象的姿态。
特征选择（Feature Selection）：在特征对齐的基础上，Horyon进一步进行特征选择，过滤掉不相关或低质量的特征，只保留对姿态估计有用的特征。这一策略有助于提升姿态估计的性能和鲁棒性。
多视图支持（Multi-View Support）：Horyon不仅支持单视图，还可以利用多视图信息来进一步提高姿态估计的准确性。多视图的结合使得方法在不同视角下都能表现出色。
实验验证：文章通过在多个数据集上进行实验，验证了Horyon的有效性。实验结果表明，Horyon在多个基准数据集上的表现显著优于现有的方法，特别是在姿态估计和遮罩质量上都取得了显著提升。

提升12.6%！VLM让你未见对象的6D姿态估计更准！

6. 实验结果

数据集和评估指标实验主要在以下几个公开数据集上进行：

LINEMOD：一个广泛使用的单视图对象姿态估计数据集。
LINEMOD OCCLUSION：一个基于LINEMOD的遮挡数据集，用于评估在遮挡场景下的方法性能。
YCB-Video：一个多对象、多视图数据集，包含大量日常物品。
ObjectNet3D：一个包含多类3D对象的大规模数据集。

主要评估指标包括：

ADD(-S) Metric：用于评估姿态估计的精度。
AP (Average Precision)：评估检测和姿态估计的整体性能。
IoU (Intersection over Union)：评估预测的遮罩质量。

在LINEMOD数据集上的结果

Horyon在多数对象类别上均取得了显著的精度提升。
平均ADD(-S)得分比现有最优方法提高了约5%。
在LINEMOD OCCLUSION数据集上的结果
在遮挡场景下，Horyon的表现尤为突出，平均ADD(-S)得分比现有方法高出约8%。
特别是在复杂遮挡场景中，Horyon的方法展现了更强的鲁棒性和稳定性。

在YCB-Video数据集上的结果

在多对象、多视图场景下，Horyon的多视图支持策略使得其表现优于单视图方法。
平均AP和IoU得分分别提升了约6%和7%。
在ObjectNet3D数据集上的结果
Horyon在这个包含多类对象的数据集上同样表现出色。
平均姿态估计精度比基准方法高出约4%。

为了验证Horyon各模块的重大性，进行了消融实验，包括：

特征对齐模块：移除后性能下降明显，证明该模块在姿态估计中起到关键作用。
特征选择模块：移除后虽然影响相对较小，但也导致了必定的性能下降，说明特征选择策略有助于进一步优化结果。
多视图支持：在只使用单视图的情况下，性能略有下降，验证了多视图支持策略的有效性。

提升12.6%！VLM让你未见对象的6D姿态估计更准！

7. 总结 & 未来工作

我们提出了Horyon方法，通过增加特征图分辨率并提供更准确的匹配进行配准，显著改善了先前的开放词汇6D姿态估计方法。我们的实验表明，Horyon在具有不寻常对象（Linemod）和轻微遮挡（YCB-Video）的场景中也表现出色。消融研究显示，由更新的VLM提供的逐标记表明，以及新的融合策略，极大地增强了Horyon的性能。这种改善在泛化能力和对噪声的鲁棒性方面保持一致。不过，Horyon的局限性在于执行配准需要深度图和内在相机参数。通过探索单目深度估计方法（如DepthAnything）在每个RGB图像上的应用，可以放宽这些数据需求。虽然相比Oryon，Horyon对于次优提示更为鲁棒，但性能下降依旧显著。此外，在测试时可用的提示种类受训练数据的限制，该数据提供的提示没有描述。为了丰富训练时的提示，可以使用LLMs或图像字幕生成器在图像样本上提供包括对象颜色和物理属性描述的提示。

本文仅做学术分享，如有侵权，请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。