代码已开源在:https://github.com/GAIA-vision/GAIA-ssl 研究简介: 通过自监督学习 (SSL) 和对许多下游任务进行微调来在无标签的海量数据上训练模型的范式最近已成为一种趋势。 然而,由于训练成本高和下游使用的无意识,大多数自监督学习方法缺乏对应下游场景多样性的能力,因为存在各种数据域、延迟约束等。 神经架构搜索 (NAS) 是一种公认的克服上述问题的方式,但在 SSL 上应用 NAS 似乎是不可能的,因为没有提供用于判断模型选择的标签或指标。在本文中,我们介绍了 DATA,这是一种简单而有效的 NAS 方法,专门用于 SSL,提供数据域相关和任务相关的预训练模型。具体来说,我们 (i) 首先训练了一个超网,它可以被视为一组数百万个网络,涵盖了广泛的模型规模,没有任何标签,(ii) 其次提出了一种与 SSL 兼容的灵活搜索机制,可以针对没有提供明确指标的各种下游视觉任务和数据域,找到不同计算成本的网络。使用 MoCov2 实例化,我们的方法在下游任务的广泛计算成本上取得了可喜的结果,包括图像分类、目标检测和语义分割。 DATA 与大多数现有 SSL 方法正交,并赋予它们根据下游需求进行定制的能力。大量的实验验证了所提出的方法在其他 SSL […]
object detection
Embracing Single Stride 3D Object Detector with Sparse Transformer (CVPR2022)
代码已开源在: https://github.com/TuSimple/SST 研究简介: 在自动驾驶场景中,相比于整个场景的尺度,单个物体的尺度通常很小。下图展示了COCO数据集和Waymo数据集上物体相对尺度的分布情况: COCO和Waymo上物体相对尺度分布 这一特性往往被基于Pillar或者体素的检测器所忽略,它们通常借用了成熟的2D多尺度检测器的结构。基于这一考量,本文探索了单步长(无降采样)的检测器结构。如果简单地将卷积网络提升为单步长网络,会取得一定的性能提升,但是会带来感受野不足的问题以及巨大的计算量。为了得到一个高效高性能的单步长检测器,我们借用了当前流行的swin transformer的结构,舍弃了其多尺度的结构并且针对点云数据的特点将其稀疏化,我们将其命名为单步长稀疏Transformer(Single-stride Sparse Transformer, SST)。我们在当前最大的3D检测数据集Waymo Open Dataset上做了详尽的实验,从各个方面探讨了SST的特性,并取得了SoTA的性能,特别是在小物体上比之前的方法有了显著的提升(达到了83.8的Level 1 AP)。 Sparse Attention结构设计
Efficient Neural Architecture Transformation Search in Channel-Level for Object Detection (NeurIPS2019)
Journal / Conference Thirty-third Conference on Neural Information Processing Systems(NIPS, 2019) [PDF link: here] [Code link: PENDING] Keywords Neural Architecture Transformation Search(NATS), Object Detection Abstract Recently, Neural Architecture Search has […]
POD: Practical Object Detection with Scale-Sensitive Network (ICCV2019)
Journal / Conference The IEEE International Conference on Computer Vision (ICCV, 2019) [PDF link: here] [Code link: Pending] Keywords Scale-sensitive object detection,Global Scale Learning module Abstract Scale-sensitive object detection remains […]
Sequence Level Semantics Aggregation for Video Object Detection (ICCV2019)
Journal / Conference The IEEE International Conference on Computer Vision (ICCV, 2019) [PDF link:here] [Code link: here] Keywords Video Object Detection, SEquence Level Semantics Aggregation (SELSA) Abstract Video objection detection […]
Scale-Aware Trident Networks for Object Detection (ICCV2019)
Journal / Conference The IEEE International Conference on Computer Vision (ICCV, 2019) [PDF link: here] [Code link: here] Keywords Object Detection, TridentNet Abstract Scale variation is one of the key […]