Xiao Tan

LMMs struggle to ground text queries in the right parts of images, but explicitly modeling salient visual subjects can dramatically improve cross-modal retrieval.

Guosheng Zhang, Linkai Liu, Keyao Wang +3

Computer Vision Multimodal Models Recommendation & Information Retrieval

Mar 19, 2026

Xianjin Wu +10Mar 19, 2026·also Baidu

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

MLLMs can gain surprisingly strong 3D spatial reasoning abilities simply by tapping into the latent knowledge already present in video generation models.

Xianjin Wu, Xian Wu, Dingkang Liang +8

Computer Vision Multimodal Models World Models & Planning

Mar 9, 2026

Weining Ren +2Mar 9, 2026·also Baidu

Speed3R: Sparse Feed-forward 3D Reconstruction Models

Achieve a remarkable 12.4x speedup in 3D reconstruction by mimicking the efficiency of keypoint matching with a novel dual-branch attention mechanism.

Weining Ren, Xiao Tan, Kai Han

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Search

Xiao Tan

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)