MemoNav: Working Memory Model for Visual Navigation (CVPR 2024)

研究介绍

人类导航至多目标时，会回忆起与目标相关的地点特征，忽视其他无关区域的记忆，并利用激活的这部分局部信息来快速规划路线，而无需重复探索。

MemoNav借鉴人类这种工作记忆机制，结合短期记忆和长期记忆一起提升导航决策性能（图1）。

MemoNav引入了遗忘机制、长期记忆、和工作记忆三个协同组件：

选择性遗忘机制。由于并非所有地图结点都和导航目标有关，MemoNav提出利用目标注意力机制，计算地图结点和当前目标的注意力分数，然后暂时“遗忘”分数较低即对导航帮助不大的偏远结点，被保留的则用于下游决策。

长期记忆。为了习得场景的全局表征，智能体维护一个和所有短期记忆结点相连的全局结点作为长期记忆，不断地通过图注意力机制聚合短期记忆特征。

工作记忆。利用一个图注意力机制编码保留的短期记忆和长期记忆，得到和当前导航任务最相关的工作记忆，输入给下游策略模块以得到最终导航行为。

实验结果。在Gibson和Matterport3D场景中， MemoNav的多目标导航性能大幅超越SoTA模型。定性实验显示MemoNav可以规划更快捷的路径，且死锁概率更小（图2）

代码：https://github.com/ZJULiHongxin/MemoNav

论文：https://arxiv.org/abs/2402.19161

Zhaoxiang Zhang (张兆翔)