BeihangHITFeb 26, 2026arXiv:2602.22740

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Tongfei Chen, Tongfei Chen, Shuo Yang, Yuguang Yang, Yuguang Yang, Linlin Yang, Linlin Yang, Runtang Guo, Runtang Guo, Changbai Li, He Long, He Long, Chunyu Xie, Chunyu Xie, Dawei Leng, Dawei Leng, Baochang Zhang

AI Summary

This paper introduces Alignment-Aware Masked Learning (AML) for Referring Image Segmentation (RIS), which improves performance by explicitly estimating pixel-level vision-language alignment. AML filters out poorly aligned regions during training, focusing optimization on areas with strong vision-language correspondence. Experiments demonstrate state-of-the-art results on RefCOCO datasets and improved robustness to diverse descriptions.

Key Contribution

Stop letting noisy vision-language alignment ruin your referring image segmentation: AML filters out the bad parts.

Abstract

Referring Image Segmentation (RIS) aims to segment an object in an image identified by a natural language expression. The paper introduces Alignment-Aware Masked Learning (AML), a training strategy to enhance RIS by explicitly estimating pixel-level vision-language alignment, filtering out poorly aligned regions during optimization, and focusing on trustworthy cues. This approach results in state-of-the-art performance on RefCOCO datasets and also enhances robustness to diverse descriptions and scenarios

Computer Vision Multimodal Models Natural Language Processing

Citation Metrics

Citations0

Influential citations0

References0

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation

Related Papers