Mar 5, 2026arXiv:2603.05117

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Youqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Pengyu Cheng, Shuaicheng Liu

AI Summary

The paper introduces SeedPolicy, a Diffusion Policy variant for robot manipulation that addresses performance degradation in long-horizon tasks by incorporating a Self-Evolving Gated Attention (SEGA) module. SEGA compresses long-horizon observations into a fixed-size representation using gated attention and recurrent updates, filtering irrelevant temporal information. Experiments on the RoboTwin 2.0 benchmark demonstrate that SeedPolicy significantly outperforms standard Diffusion Policy and other imitation learning baselines, achieving up to 169% relative improvement in challenging settings and competitive performance with VLAs using orders of magnitude fewer parameters.

Key Contribution

SeedPolicy overcomes the long-horizon limitations of Diffusion Policies in robot manipulation by compressing temporal information with a novel gated attention mechanism, achieving state-of-the-art imitation learning performance with significantly fewer parameters than vision-language-action models.

Abstract

Imitation Learning (IL) enables robots to acquire manipulation skills from expert demonstrations. Diffusion Policy (DP) models multi-modal expert behaviors but suffers performance degradation as observation horizons increase, limiting long-horizon manipulation. We propose Self-Evolving Gated Attention (SEGA), a temporal module that maintains a time-evolving latent state via gated attention, enabling efficient recurrent updates that compress long-horizon observations into a fixed-size representation while filtering irrelevant temporal information. Integrating SEGA into DP yields Self-Evolving Diffusion Policy (SeedPolicy), which resolves the temporal modeling bottleneck and enables scalable horizon extension with moderate overhead. On the RoboTwin 2.0 benchmark with 50 manipulation tasks, SeedPolicy outperforms DP and other IL baselines. Averaged across both CNN and Transformer backbones, SeedPolicy achieves 36.8% relative improvement in clean settings and 169% relative improvement in randomized challenging settings over the DP. Compared to vision-language-action models such as RDT with 1.2B parameters, SeedPolicy achieves competitive performance with one to two orders of magnitude fewer parameters, demonstrating strong efficiency and scalability. These results establish SeedPolicy as a state-of-the-art imitation learning method for long-horizon robotic manipulation. Code is available at: https://github.com/Youqiang-Gui/SeedPolicy.

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Training Efficiency & Optimization

Citation Metrics

Citations0

Influential citations0

References43

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Related Papers