Xiaomi IncZJUApr 9, 2026arXiv:2604.08209

OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

Yiduo Jia, Muzhi Zhu, Haoyang Zhong, Mingyu Liu, Yuling Xi, Yu Xi, Hao Chen, Bin Qin, Yong-Liang Yang, Yongjie Yang, Zhenbo Luo, Chunhua Shen

AI Summary

OmniJigsaw is introduced as a self-supervised framework for enhancing omni-modal models by training them to reconstruct shuffled audio-visual clips. The framework employs joint modality integration, sample-level modality selection, and clip-level modality masking to encourage cross-modal integration. A two-stage data filtering pipeline ensures the quality of the reordering proxy task, and experiments demonstrate that fine-grained clip-level modality masking outperforms other strategies, leading to significant gains across 15 video, audio, and collaborative reasoning benchmarks.

Key Contribution

OmniJigsaw reveals a "bi-modal shortcut phenomenon" in joint audio-visual integration, demonstrating that naive fusion can be surprisingly ineffective and highlighting the importance of carefully designed cross-modal training strategies.

Abstract

To extend the reinforcement learning post-training paradigm to omni-modal models for concurrently bolstering video-audio understanding and collaborative reasoning, we propose OmniJigsaw, a generic self-supervised framework built upon a temporal reordering proxy task. Centered on the chronological reconstruction of shuffled audio-visual clips, this paradigm strategically orchestrates visual and auditory signals to compel cross-modal integration through three distinct strategies: Joint Modality Integration, Sample-level Modality Selection, and Clip-level Modality Masking. Recognizing that the efficacy of such proxy tasks is fundamentally tied to puzzle quality, we design a two-stage coarse-to-fine data filtering pipeline, which facilitates the efficient adaptation of OmniJigsaw to massive unannotated omni-modal data. Our analysis reveals a ``bi-modal shortcut phenomenon''in joint modality integration and demonstrates that fine-grained clip-level modality masking mitigates this issue while outperforming sample-level modality selection. Extensive evaluations on 15 benchmarks show substantial gains in video, audio, and collaborative reasoning, validating OmniJigsaw as a scalable paradigm for self-supervised omni-modal learning.

Computer Vision Multimodal Models Speech & Audio

Citation Metrics

Citations0

Influential citations0

References59

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

Related Papers