研究介绍
人类导航至多目标时,会回忆起与目标相关的地点特征,忽视其他无关区域的记忆,并利用激活的这部分局部信息来快速规划路线,而无需重复探索。
MemoNav借鉴人类这种工作记忆机制,结合短期记忆和长期记忆一起提升导航决策性能(图1)。
MemoNav引入了遗忘机制、长期记忆、和工作记忆三个协同组件:
选择性遗忘机制。由于并非所有地图结点都和导航目标有关,MemoNav提出利用目标注意力机制,计算地图结点和当前目标的注意力分数,然后暂时“遗忘”分数较低即对导航帮助不大的偏远结点,被保留的则用于下游决策。
长期记忆。为了习得场景的全局表征,智能体维护一个和所有短期记忆结点相连的全局结点作为长期记忆,不断地通过图注意力机制聚合短期记忆特征。
工作记忆。利用一个图注意力机制编码保留的短期记忆和长期记忆,得到和当前导航任务最相关的工作记忆,输入给下游策略模块以得到最终导航行为。
实验结果。在Gibson和Matterport3D场景中, MemoNav的多目标导航性能大幅超越SoTA模型。定性实验显示MemoNav可以规划更快捷的路径,且死锁概率更小(图2)


代码:https://github.com/ZJULiHongxin/MemoNav
论文:https://arxiv.org/abs/2402.19161
