Mar 10, 2026arXiv:2603.09542

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran Luo

AI Summary

This paper introduces Neuro-Symbolic Vision-Language-Action (NS-VLA), a framework that integrates symbolic reasoning into VLA models for robotic manipulation. NS-VLA employs a symbolic encoder to extract structured primitives from vision and language inputs, a symbolic solver for action sequencing, and online RL for optimizing action generation. Experiments on robotic manipulation benchmarks show that NS-VLA achieves superior performance in one-shot training, data-perturbed settings, zero-shot generalizability, data efficiency, and exploration space compared to existing methods.

Key Contribution

By injecting symbolic reasoning into vision-language-action models, NS-VLA achieves remarkable gains in data efficiency and generalization for robotic manipulation.

Abstract

Vision-Language-Action (VLA) models are formulated to ground instructions in visual context and generate action sequences for robotic manipulation. Despite recent progress, VLA models still face challenges in learning related and reusable primitives, reducing reliance on large-scale data and complex architectures, and enabling exploration beyond demonstrations. To address these challenges, we propose a novel Neuro-Symbolic Vision-Language-Action (NS-VLA) framework via online reinforcement learning (RL). It introduces a symbolic encoder to embedding vision and language features and extract structured primitives, utilizes a symbolic solver for data-efficient action sequencing, and leverages online RL to optimize generation via expansive exploration. Experiments on robotic manipulation benchmarks demonstrate that NS-VLA outperforms previous methods in both one-shot training and data-perturbed settings, while simultaneously exhibiting superior zero-shot generalizability, high data efficiency and expanded exploration space. Our code is available.

Multimodal Models Robotics & Embodied AI Tool Use & Agents

Citation Metrics

Citations0

Influential citations0

References0

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

Related Papers