Apr 30, 2026arXiv:2604.27792

MotuBrain: An Advanced World Action Model for Robot Control

MotuBrain Team, Chendong Xiang, Fan Bao, Haitian Liu, Hengkai Tan, Hongzhe Bi, James Li, Jiabao Liu, Jingrui Pang, Kiro Jing, Louis Liu, Mengchen Cai, Rongxu Cui, Ruowen Zhao, Runqing Wang, Shuhe Huang, Yao Feng, Yinze Rong, Zeyuan Wang, Jun Zhu

AI Summary

MotuBrain, a unified multimodal generative model, is introduced for robot control, addressing the limitations of VLA models in fine-grained world dynamics modeling. It employs a UniDiffuser formulation with a three-stream Mixture-of-Transformers architecture to jointly model video and action. The model supports multiple inference modes and scales to heterogeneous multimodal data, while also incorporating a unified multiview representation and language-action coupling for improved real-world applicability and efficient inference.

Key Contribution

Achieve 50x speedup for real-time robot control by unifying video, action, and language modeling into a single efficient architecture.

Abstract

Vision-Language-Action (VLA) models achieve strong semantic generalization but often lack fine-grained modeling of world dynamics. Recent work explores video generation models as a foundation for world modeling, leading to unified World Action Models (WAMs) that jointly model visual dynamics and actions. We present MotuBrain, a unified multimodal generative model that jointly models video and action under a UniDiffuser formulation with a three-stream Mixture-of-Transformers architecture. A single model supports multiple inference modes, including policy learning, world modeling, video generation, inverse dynamics, and joint video-action prediction, while scaling to heterogeneous multimodal data such as video-only and cross-embodiment robot data. To improve real-world applicability, MotuBrain introduces a unified multiview representation, explicit language-action coupling, and an efficient inference stack, achieving over 50x speedup for real-time deployment.

Multimodal Models Robotics & Embodied AI World Models & Planning

Citation Metrics

Citations0

Influential citations0

References0

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

MotuBrain: An Advanced World Action Model for Robot Control

Related Papers