MemoNav: Working Memory Model for Visual Navigation (CVPR 2024)

研究介绍

人类导航至多目标时,会回忆起与目标相关的地点特征,忽视其他无关区域的记忆,并利用激活的这部分局部信息来快速规划路线,而无需重复探索。

MemoNav借鉴人类这种工作记忆机制,结合短期记忆和长期记忆一起提升导航决策性能(图1)。

MemoNav引入了遗忘机制、长期记忆、和工作记忆三个协同组件:

选择性遗忘机制。由于并非所有地图结点都和导航目标有关,MemoNav提出利用目标注意力机制,计算地图结点和当前目标的注意力分数,然后暂时“遗忘”分数较低即对导航帮助不大的偏远结点,被保留的则用于下游决策。

长期记忆。为了习得场景的全局表征,智能体维护一个和所有短期记忆结点相连的全局结点作为长期记忆,不断地通过图注意力机制聚合短期记忆特征。

工作记忆。利用一个图注意力机制编码保留的短期记忆和长期记忆,得到和当前导航任务最相关的工作记忆,输入给下游策略模块以得到最终导航行为。

实验结果。在Gibson和Matterport3D场景中, MemoNav的多目标导航性能大幅超越SoTA模型。定性实验显示MemoNav可以规划更快捷的路径,且死锁概率更小(图2)

图 1  MemoNav借鉴人脑工作记忆的导航模型。MemoNav通过注意力机制选择与当前导航目标相关的短期记忆(即地图结点)和长期记忆(即全局结点)一起生成工作记忆,用于下游决策
图 2 MemoNav和现有其它方法的定性对比

代码:https://github.com/ZJULiHongxin/MemoNav

论文:https://arxiv.org/abs/2402.19161

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Zhaoxiang Zhang © 2020