Reconstructive Visual Instruction Tuning.International Conference on Learning Representations (ICLR 2025)

本研究提出了一种重构式视觉指令调优框架(ROSS),该框架创新性地构建了以视觉为中心的监督信号体系,突破了传统多模态大模型(LMMs)仅针对文本输出进行监督的范式局限。区别于现有方法依赖文本反馈优化模型输出,ROSS通过引导模型重构输入图像的潜在表征,充分挖掘原始视觉数据中蕴含的丰富空间细节信息。针对自然图像中存在的显著空间冗余问题,研究团队设计了基于去噪机制的重构目标函数,有效避免了直接回归像素级RGB值的技术困境。这种内在激活机制不仅显著增强了模型对图像细节的保持能力,更在本质上提升了模型的细粒度视觉理解水平并抑制了生成幻觉现象。实验表明,ROSS框架展现出卓越的跨架构兼容性,在多种主流视觉编码器和语言模型组合中均实现性能提升。值得注意的是,在仅采用单一SigLIP视觉编码器的情况下,ROSS即展现出与集成多专家视觉系统的最先进方法相当的性能表现,充分验证了该视觉中心化监督策略在视觉输出优化方向上的创新价值和技术优势。代码提供在https://github.com/Haochen-Wang409/ross

Updated: 2025-08-24 — 11:34 下午

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Zhaoxiang Zhang © 2020