prompt learning

研究简介：在计算机视觉中，微调是一种实用的利用预先训练的视觉模型来执行下游任务的方法。然而，由于这类方法多采用低效的全局参数更新策略，以及严重依赖于高质量的下游数据，在实践中部署非常具有挑战性。最近，基于prompt learning的方法增加了与任务相关的提示以使下游任务适应预训练模型，极大地提高了许多自然语言下游任务的性能。在这项工作中，我们将这种显着的迁移能力扩展到视觉模型中，作为微调的替代方案。为此，我们提出了视觉提示调整（VPT），这是一种参数有效的视觉调整范式，可将冻结的视觉模型适应到下游数据。 VPT 的关键是基于提示的调优，即只学习与输入图像连接的特定任务视觉提示，并冻结预训练模型。通过这种方式，VPT 只需训练少量额外参数即可生成紧凑且稳健的下游模型。大量实验有力地证明，我们的方法在十五个下游视觉数据集上优于当前的调整范例，包括图像损坏、对抗性示例、长尾分布和OOD问题等。 VPT结构示意图

Zhaoxiang Zhang (张兆翔)

Vision Prompt Tuning (CVPR2022)

What is new

Opening Positions