transformer

HP-Capsule: Unsupervised Face Part Discovery by Hierarchical Parsing Capsule Network (CVPR2022)

研究简介:          胶囊网络旨在通过一组部件以及部件之间的关系来表征物体,这对视觉感知过程提供了指导。尽管最近的工作证明了胶囊网络在简单对象(如数字)上的成功,但对具有同源结构的人脸的探索仍然不足。在本文中,我们提出了一种层级解析胶囊网络(HP-Capsule),用于无监督的人脸部件发现。在浏览没有标签的大规模人脸图像时,网络首先使用一组可解释的子部分胶囊对经常观察到的模式进行编码。然后,通过基于Transformer 的解析模块 (TPM) 将子部分胶囊组装成部件级胶囊,以学习它们之间的组合关系。在训练过程中,随着人脸层次结构的逐步构建和细化,部件胶囊自适应地对具有语义一致性的人脸部分进行编码。 HP-Capsule 将胶囊网络的应用从数字扩展到人脸,并向前迈出了一步,展示了神经网络如何在没有人工干预的情况下理解同源对象。 层级解析胶囊网络的简要说明 HP-Capsule模型结构示意

The Devil Is in the Details: Window-based Attention for Image Compression (CVPR2022)

代码近期将会开源:https://github.com/Googolxx/STF 研究简介:          近年来,基于深度学习的图像压缩方法表现出比传统图像压缩方法具有更好的RD Performance。目前基于深度学习的图像压缩模型大都基于CNN。其主要缺点是CNN结构不是为捕捉局部细节而设计的,尤其是局部冗余信息,影响了重建质量。因此,如何充分利用全局结构和局部纹理成为基于深度学习图像压缩的核心问题。          受到ViT和 Swin的启发,我们发现将局部感知注意力机制与全局相关特征学习相结合可以满足图像压缩的预期。在本文中,我们首先广泛研究了多种注意力机制对局部特征学习的影响,然后介绍了一种更直接有效的基于窗口的局部注意力块。所提出的基于窗口的注意力非常灵活,可以作为即插即用组件来增强图像压缩模型。此外,本文提出了一种新颖的Symmetrical Transformer框架,是Transformer在图像压缩领域的第一次探索。         基于本文设计的Symmetrical Transformer框架和CNN框架在基于PSNR和MS-SSIM的量化指标上,均取得了新的SOTA性能。此外,在主观质量上,也有明显的改善。 Symmetrical Transformer结构设计

Zhaoxiang Zhang © 2020