Xinyuan Qian

Even when visual data is missing or noisy, EgoAdapt accurately determines who is talking to the camera wearer by adaptively integrating head orientation, lip movement, and robust audio features.

Xinyuan Qian, Xinjia Zhu, A. Brutti +1

Computer Vision Multimodal Models Speech & Audio

Mar 2, 2026

Mar 2, 2026·also CUHK, Shenzhen Loop Area Institute

CueNet: Robust Audio-Visual Speaker Extraction through Cross-Modal Cue Mining and Interaction

CueNet achieves robust audio-visual speaker extraction under visual degradation by cleverly disentangling and integrating speaker information, acoustic synchronisation, and semantic synchronisation cues, without needing training on degraded visual data.

Jiadong Wang, Jiadong Wang, Ke Zhang +8

Computer Vision Multimodal Models Speech & Audio

Search

Xinyuan Qian

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)