HFUTHuaweiRUCSYSUFeb 12, 2026arXiv:2602.11598

ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Min-peng Sun, Fan Jiang, Chiyu Wang, Zhichen Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zi-An Guan, Wei Guo, Guoqing Liu, Dianzhe Yang, Xiangpo Yang, Meng-Yao Yang, Hongguang Xing, Weiguo Li, Mu Xu

AI Summary

The paper introduces ABot-N0, a unified Vision-Language-Action (VLA) foundation model for embodied navigation, trained on a large-scale dataset of 16.9M expert trajectories and 5.0M reasoning samples. ABot-N0 employs a hierarchical "Brain-Action" architecture, combining an LLM-based cognitive brain for reasoning with a Flow Matching-based action expert for trajectory generation. The model achieves state-of-the-art performance across 7 benchmarks in Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following tasks, demonstrating its versatility and outperforming task-specific models.

Key Contribution

Forget task-specific architectures: a single Vision-Language-Action foundation model, ABot-N0, now dominates embodied navigation across five distinct tasks.

Abstract

Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification''across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action''architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation. To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 $\text{km}^2$). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Robotics & Embodied AI

Citation Metrics

Citations0

Influential citations0

References66

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

Related Papers