Apr 7, 2026arXiv:2604.05673

Rectified Schr\"odinger Bridge Matching for Few-Step Visual Navigation

Wuyang Luan, Junhui Li, Weiguang Zhao, Wenjian Zhang, Tieru Wu, Rui Ma

AI Summary

This paper introduces Rectified Schrödinger Bridge Matching (RSBM) for few-step visual navigation, leveraging a shared velocity-field structure between Schrödinger Bridges and Optimal Transport controlled by an entropic regularization parameter. They prove Velocity Structure Invariance across the entropic regularization spectrum and demonstrate that reducing this parameter linearly decreases conditional velocity variance, enabling stable coarse-step ODE integration. Empirically, RSBM achieves comparable performance to standard Schrödinger Bridges with significantly fewer integration steps (3 vs. >=10) in visual navigation tasks.

Key Contribution

Shrinking the entropic regularization parameter in Schrödinger Bridges unlocks a 3x speedup in visual navigation without sacrificing accuracy, finally making diffusion-based policies viable for real-time robotics.

Abstract

Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into continuous, long-horizon action trajectories. While generative policies based on diffusion models and Schr\"odinger Bridges (SB) effectively capture multimodal action distributions, they require dozens of integration steps due to high-variance stochastic transport, posing a critical barrier for real-time robotic control. We propose Rectified Schr\"odinger Bridge Matching (RSBM), a framework that exploits a shared velocity-field structure between standard Schr\"odinger Bridges ($\varepsilon=1$, maximum-entropy transport) and deterministic Optimal Transport ($\varepsilon\to 0$, as in Conditional Flow Matching), controlled by a single entropic regularization parameter $\varepsilon$. We prove two key results: (1) the conditional velocity field's functional form is invariant across the entire $\varepsilon$-spectrum (Velocity Structure Invariance), enabling a single network to serve all regularization strengths; and (2) reducing $\varepsilon$ linearly decreases the conditional velocity variance, enabling more stable coarse-step ODE integration. Anchored to a learned conditional prior that shortens transport distance, RSBM operates at an intermediate $\varepsilon$ that balances multimodal coverage and path straightness. Empirically, while standard bridges require $\geq 10$ steps to converge, RSBM achieves over 94% cosine similarity and 92% success rate in merely 3 integration steps -- without distillation or multi-stage training -- substantially narrowing the gap between high-fidelity generative policies and the low-latency demands of Embodied AI.

Computer Vision Multimodal Models Robotics & Embodied AI World Models & Planning

Citation Metrics

Citations0

Influential citations0

References41

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

Rectified Schr\"odinger Bridge Matching for Few-Step Visual Navigation

Related Papers