研究介绍:
我们在这篇文章中探讨了如何应对场景图生成(SGG)任务在开放词汇环境下的挑战。传统的 SGG 模型通常只能够识别预先定义的对象和关系类别,这在实际应用中限制了模型的泛化能力,尤其是在面对未见过的对象和关系时。因此,我们提出了一个名为 OvSGTR 的框架,旨在解决这些问题。
OvSGTR 框架采用端到端的Transformer架构,通过视觉-概念对齐技术,使得模型能够识别未见过的对象和关系。我们特别针对关系识别的难题,设计了基于图像-字幕数据的弱监督关系预训练,并通过知识蒸馏技术防止模型在引入新数据时遗忘之前学到的信息。此外,我们提出了四种场景图生成设置,涵盖了从封闭集到完全开放词汇的不同场景。
实验结果验证了我们方法的有效性。在Visual Genome数据集上的测试显示,OvSGTR在处理未见对象和关系类别时表现显著优于现有模型。这项研究不仅扩展了场景图生成的应用边界,还为未来在开放词汇环境下的视觉概念对齐和生成任务提供了新的思路。


