Tsinghua AIHKUPenn StatePrincetonUSCMay 27, 2026arXiv:2605.28805

OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration

Xinchen Zhang, Bowei Liu, Jiale Liu, Chufan Shi, Yizhen Zhang, Junhong Liu, Youliang Zhang, Zhiheng Li, Ling Yang

AI Summary

The paper introduces OmniVerifier-M1, a multimodal meta-verifier that uses verifier-generated rationales to improve verification performance. They find that symbolic outputs (bounding boxes) are superior to textual explanations for meta-verification and that decoupling reinforcement learning objectives for binary judgment and meta-verification significantly improves performance. The resulting OmniVerifier-M1 demonstrates robust verification, fine-grained error localization, and enables a verifier-driven agentic generation system.

Key Contribution

Ditch the textual explanations: symbolic outputs like bounding boxes are the secret sauce for boosting multimodal verifier performance.

Abstract

Visual outcomes are increasingly central to multimodal large language models, making reliable and fine-grained verification essential for scaling generalist foundation models. In this work, we investigate multimodal meta-verification, which leverages verifier-generated rationales rather than decision-only signals, and explore how to effectively incorporate meta-verification feedback into multimodal verifier training. We identify two key findings. First, symbolic verifier outputs (e.g., bounding boxes) outperform textual explanations as meta-verification rationales, enabling efficient rule-based reinforcement learning rewards while avoiding reliance on model-based rewards from auxiliary judge models. Second, decoupling reinforcement learning objectives for binary judgment and meta-verification substantially outperforms joint reward optimization, due to intrinsic differences in output structure and learning dynamics. Based on these insights, we train OmniVerifier-M1, a generalist visual verifier leveraging symbolic meta-verification and decoupled reinforcement learning. OmniVerifier-M1 provides robust verification and fine-grained error localization, and further enables M1-TTS, a verifier-driven agentic generation system achieving dynamic region-level self-correction. This approach paves the way for more reliable, interpretable, and fine-grained multimodal verification, supporting safer and more controllable foundation model deployment.

Eval Frameworks & Benchmarks Multimodal Models Reasoning & Chain-of-Thought

Citation Metrics

Citations0

Influential citations0

References0

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration

Related Papers