Saining Xie

Existing image editing models struggle with precision, achieving only 17.1% accuracy on a new benchmark designed to evaluate fundamental visual editing tasks.

Kaidi Xu, Ellis Brown, Shrikar Madhu +3

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

May 21, 2026

Meta AI3w ago·also BAIR, NYU

Cambrian-P: Pose-Grounded Video Understanding

Camera pose, largely ignored in video LLMs, unlocks significant gains in spatial reasoning and even improves general video QA when used as a lightweight supervisory signal.

Jihan Yang, Zifan Zhao, Xichen Pan +5

Computer Vision Multimodal Models Robotics & Embodied AI

Apr 22, 2026

project leads and equal contributionsApr 22, 2026·also core contributors, leadership sponsors, project advisors

Image Generators are Generalist Vision Learners

Image generators aren't just for making pretty pictures; they're secretly state-of-the-art vision learners, rivaling specialized models in tasks from segmentation to depth estimation.

Valentin Gabeur, Shangbang Long, Songyou Peng +25

Computer Vision Multimodal Models Scaling Laws & Emergent Abilities

Search

Saining Xie

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)