Vision Prompt Tuning (CVPR2022)

研究简介

        在计算机视觉中,微调是一种实用的利用预先训练的视觉模型来执行下游任务的方法。然而,由于这类方法多采用低效的全局参数更新策略,以及严重依赖于高质量的下游数据,在实践中部署非常具有挑战性。最近,基于prompt learning的方法增加了与任务相关的提示以使下游任务适应预训练模型,极大地提高了许多自然语言下游任务的性能。在这项工作中,我们将这种显着的迁移能力扩展到视觉模型中,作为微调的替代方案。为此,我们提出了视觉提示调整(VPT),这是一种参数有效的视觉调整范式,可将冻结的视觉模型适应到下游数据。 VPT 的关键是基于提示的调优,即只学习与输入图像连接的特定任务视觉提示,并冻结预训练模型。通过这种方式,VPT 只需训练少量额外参数即可生成紧凑且稳健的下游模型。大量实验有力地证明,我们的方法在十五个下游视觉数据集上优于当前的调整范例,包括图像损坏、对抗性示例、长尾分布和OOD问题等。

VPT结构示意图

Leave a Reply

Your email address will not be published. Required fields are marked *

Zhaoxiang Zhang © 2020