研究简介: 深度双目模型在驾驶场景中取得了最先进的性能,但在未见过的场景中进行测试时性能严重下降。尽管最近的工作通过不断的在线适应缩小了这一性能差距,但这种设置需要在部署时不断更新梯度,并且无法避免灾难性的遗忘。为了应对这些挑战,我们建议执行连续双目匹配,其中模型的任务是 1) 不断学习新场景,2) 克服忘记先前学习的场景,以及 3) 在没有在线梯度更新的情况下连续预测视差。我们通过引入可重用架构增长 (RAG) 框架来实现这一目标。 RAG 利用特定任务的神经单元搜索和架构增长来持续学习新场景。在增长过程中,它可以通过重用之前的神经单元来保持高可重用性,同时获得良好的性能。还引入了一个名为 Scene Router 的模块,以在推理时自适应地选择特定于场景的架构路径。实验结果表明,我们的方法在各种具有挑战性的驾驶场景中都优于最先进的方法。 RAG模型结构示意
Research
Vision Prompt Tuning (CVPR2022)
研究简介: 在计算机视觉中,微调是一种实用的利用预先训练的视觉模型来执行下游任务的方法。然而,由于这类方法多采用低效的全局参数更新策略,以及严重依赖于高质量的下游数据,在实践中部署非常具有挑战性。最近,基于prompt learning的方法增加了与任务相关的提示以使下游任务适应预训练模型,极大地提高了许多自然语言下游任务的性能。在这项工作中,我们将这种显着的迁移能力扩展到视觉模型中,作为微调的替代方案。为此,我们提出了视觉提示调整(VPT),这是一种参数有效的视觉调整范式,可将冻结的视觉模型适应到下游数据。 VPT 的关键是基于提示的调优,即只学习与输入图像连接的特定任务视觉提示,并冻结预训练模型。通过这种方式,VPT 只需训练少量额外参数即可生成紧凑且稳健的下游模型。大量实验有力地证明,我们的方法在十五个下游视觉数据集上优于当前的调整范例,包括图像损坏、对抗性示例、长尾分布和OOD问题等。 VPT结构示意图
Sparse Instance Activation for Real-Time Instance Segmentation (CVPR2022)
研究简介: 我们提出了一种新颖、高效的全卷积实时实例分割框架。以前,大多数实例分割方法严重依赖目标检测并基于边界框或密集中心执行掩码预测。相比之下,我们提出了一组稀疏的实例激活图,作为新的对象表示,以突出每个前景对象的信息区域。然后根据高亮区域聚合特征得到实例级特征,进行识别和分割。此外,基于二分匹配,实例激活图可以以一对一的方式预测对象,从而避免后处理中的非极大值抑制(NMS)。由于具有实例激活图的简单而有效的设计,SparseInst 具有极快的推理速度,在 COCO 基准测试中达到了 40.2 FPS 和 36.9 AP,在速度和准确性方面明显优于现有方法。 在速度和精度上与现有实时实例分割算法的比较 SparseInst框架结构
HP-Capsule: Unsupervised Face Part Discovery by Hierarchical Parsing Capsule Network (CVPR2022)
研究简介: 胶囊网络旨在通过一组部件以及部件之间的关系来表征物体,这对视觉感知过程提供了指导。尽管最近的工作证明了胶囊网络在简单对象(如数字)上的成功,但对具有同源结构的人脸的探索仍然不足。在本文中,我们提出了一种层级解析胶囊网络(HP-Capsule),用于无监督的人脸部件发现。在浏览没有标签的大规模人脸图像时,网络首先使用一组可解释的子部分胶囊对经常观察到的模式进行编码。然后,通过基于Transformer 的解析模块 (TPM) 将子部分胶囊组装成部件级胶囊,以学习它们之间的组合关系。在训练过程中,随着人脸层次结构的逐步构建和细化,部件胶囊自适应地对具有语义一致性的人脸部分进行编码。 HP-Capsule 将胶囊网络的应用从数字扩展到人脸,并向前迈出了一步,展示了神经网络如何在没有人工干预的情况下理解同源对象。 层级解析胶囊网络的简要说明 HP-Capsule模型结构示意
Implicit Sample Extension for Unsupervised Person Re-Identification (CVPR2022)
研究简介: 现有的无监督行人重新识别(ReID)工作大都是通过聚类的方法来预测伪标签,其中同一聚类中的样本被认为具有相同的身份。然而,聚类通常会将不同的真实身份混合在一起,或者将相同的身份分成两个或多个子集群。毫无疑问,对这些有问题的集群进行训练会损害 Re-ID 的性能。基于这一观察,我们假设现有数据分布中可能缺少一些基础信息,这些信息对于产生理想的聚类结果很重要。为了发现这些信息,提出了一种隐式样本扩展(ISE)方法来生成我们所说的围绕集群边界的支持样本。具体来说,我们开发了一种渐进线性插值(PLI)策略来指导支持样本生成的方向和程度。PLI控制支持从实际样本到其 K-最近聚类生成的样本。同时,决定了应将多少来自 K-最近集群的上下文信息纳入支持样本。此外,为了提高支持样本的可靠性,我们提出了一种保留标签的损失ISE,强制它们接近原始样本。有趣的是,有了我们的 ISE,聚类质量逐渐提高,上述子集群和混合集群的问题得到了很好的缓解。大量实验表明,所提出的方法是有效的,并且在无监督行人重识别 Re-ID 设置下实现了最先进的性能。 ISE方法说明 模型结构示意图
The Devil Is in the Details: Window-based Attention for Image Compression (CVPR2022)
代码近期将会开源:https://github.com/Googolxx/STF 研究简介: 近年来,基于深度学习的图像压缩方法表现出比传统图像压缩方法具有更好的RD Performance。目前基于深度学习的图像压缩模型大都基于CNN。其主要缺点是CNN结构不是为捕捉局部细节而设计的,尤其是局部冗余信息,影响了重建质量。因此,如何充分利用全局结构和局部纹理成为基于深度学习图像压缩的核心问题。 受到ViT和 Swin的启发,我们发现将局部感知注意力机制与全局相关特征学习相结合可以满足图像压缩的预期。在本文中,我们首先广泛研究了多种注意力机制对局部特征学习的影响,然后介绍了一种更直接有效的基于窗口的局部注意力块。所提出的基于窗口的注意力非常灵活,可以作为即插即用组件来增强图像压缩模型。此外,本文提出了一种新颖的Symmetrical Transformer框架,是Transformer在图像压缩领域的第一次探索。 基于本文设计的Symmetrical Transformer框架和CNN框架在基于PSNR和MS-SSIM的量化指标上,均取得了新的SOTA性能。此外,在主观质量上,也有明显的改善。 Symmetrical Transformer结构设计
Towards Noiseless Object Contours for Weakly Supervised Semantic Segmentation (CVPR2022)
研究简介: 得益于深度神经网络的迅速发展,语义分割研究在近年来取得了巨大进展。然而,生成像素级语义分割标签需要巨大的时间和经济投入。使用图像类别、物体框、物体划线、物体点标记等弱标签训练分割网络可以有效降低时间和经济成本。其中,图像类别标签成本最低,相关的弱监督分割研究最为活跃。这些方法通常会训练一个分类网络,基于分类网络的类激活图(CAM)生成分割伪标签L1,利用L1训练分割网络,这种伪标签通常不能覆盖完整的前景物体。一些方法利用伪标签L1训练模型预测物体轮廓,并在轮廓约束下将CAM分数从高置信度前景区域传播到低置信度前景区域,使生成的伪标签L2包含更完整的前景物体。我们认为伪标签L1缺乏足够的高层语义信息来监督轮廓检测网络,轮廓网络输出的噪声边界会阻碍CAM分数传播。为了得到低噪声物体轮廓,我们训练了SANCE模型,它包含一个辅助语义分割分支,该辅助分支通过主干网络特征共享和在线标签为轮廓检测分支训练提供足够的高层语义信息,辅助分支预测的分割结果也提供了比CAM更好的前景物体分布信息,进一步提高了伪标签质量。我们在Pascal VOC 2012 和COCO 2014数据集上进行了实验,伪标签训练的语义分割网络取得了SOTA性能。 模型结构设计
Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer (CVPR2022)
研究简介: 小样本语义分割旨在通过使用少量标记数据来预测像素类别。现有小样本语义分割研究主要关注于在同一分布中采样基类和新类。然而,现实中数据分布并不能保证都在同一分布中,实际中显著存在的域偏移问题降低了小样本学习的性能。为了解决这个问题,我们引入了一个有趣且具有挑战性的跨域小样本语义分割任务,其中训练任务和测试任务在不同的域上执行。 跨域小样本学习 在学习过程中,我们使用一个元知识库来存储源域实例的域内样式信息并将它们传输到目标域样本,并且我们采用对比学习策略来约束迁移阶段新类的判别信息,由于源域信息的载入,目标域与源域的domain gap被有效降低。实验表明,我们提出的方法在4个数据集上的跨域少样本语义分割任务上取得了优异的性能。 模型结构设计
Self-Supervised Predictive Learning: A Negative-Free Method for Sound Source Localization in Visual Scenes (CVPR2022)
研究简介: 视觉和声音信号在物理世界常常相伴而生。一般而言,人可以“较为轻松地”将耳朵听到的声音和眼睛看到的物体一一对应起来,从而根据声音来定位发声物体。为实现这一类人行为智能,现有方法大多基于对比学习策略来构建图像和声音特征之间的对应关系。但这类方法均以随机采样的方式形成对比学习的负样本对,易引起不同模态特征之间的错误对齐,最终造成声源定位结果的混淆。 我们提出了一种无需使用负样本的自监督学习方法,通过充分挖掘来自相同视频的视频帧图像和声音信号在特征水平上的相似性,来避免随机采样负样本引起的定位混淆问题。 为实现这一目的,我们首先设计了一个三分支深度网络,通过对同一视频帧图像进行数据增广,来构建声音特征与不同视角下的视觉特征之间的语义相关性;然后利用SimSiam式的自监督表示学习方法训练模型;最后,使用声音特征与视觉特征之间的相似性图确定声源位置。值得强调的是,提出的预测编码(Predictive Coding)模块有效实现了视觉模态和声音模态之间的特征对齐,有望拓展应用到其它多模态学习任务,如视觉-语言多模态。 在两个标准的声源定位数据集(SoundNet-Flickr和VGG-Sound Source)上进行的定量和定性实验表明,我们的方法在单声源定位任务上表现最优,证明了所提方法的有效性。 SSPL结构设计
DATA: Domain-Aware and Task-Aware Pre-training (CVPR2022)
代码已开源在:https://github.com/GAIA-vision/GAIA-ssl 研究简介: 通过自监督学习 (SSL) 和对许多下游任务进行微调来在无标签的海量数据上训练模型的范式最近已成为一种趋势。 然而,由于训练成本高和下游使用的无意识,大多数自监督学习方法缺乏对应下游场景多样性的能力,因为存在各种数据域、延迟约束等。 神经架构搜索 (NAS) 是一种公认的克服上述问题的方式,但在 SSL 上应用 NAS 似乎是不可能的,因为没有提供用于判断模型选择的标签或指标。在本文中,我们介绍了 DATA,这是一种简单而有效的 NAS 方法,专门用于 SSL,提供数据域相关和任务相关的预训练模型。具体来说,我们 (i) 首先训练了一个超网,它可以被视为一组数百万个网络,涵盖了广泛的模型规模,没有任何标签,(ii) 其次提出了一种与 SSL 兼容的灵活搜索机制,可以针对没有提供明确指标的各种下游视觉任务和数据域,找到不同计算成本的网络。使用 MoCov2 实例化,我们的方法在下游任务的广泛计算成本上取得了可喜的结果,包括图像分类、目标检测和语义分割。 DATA 与大多数现有 SSL 方法正交,并赋予它们根据下游需求进行定制的能力。大量的实验验证了所提出的方法在其他 SSL […]