Ellis Brown

Existing image editing models struggle with precision, achieving only 17.1% accuracy on a new benchmark designed to evaluate fundamental visual editing tasks.

Kaidi Xu, Ellis Brown, Shrikar Madhu +3

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Mar 3, 2026

Meta AIMar 3, 2026·also NYU

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Vision models are far more data-hungry than language models, but Mixture-of-Experts can harmonize this asymmetry for truly unified multimodal models.

Shengbang Tong, David Fan, John Nguyen +18

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Search

Ellis Brown

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)