Lattice AI Research

Research focus

Multimodal Models (2)Computer Vision (1)Data Curation & Synthetic Data (1)Robotics & Embodied AI (1)World Models & Planning (1)

Frequent co-authors

Xiangyuan Wang (1)Yunhao Bai (1)Tianze Zhou (1)Haohua Chen (1)

Papers (2)

Apr 9, 2026

Apr 9, 2026·also Tsinghua AI

EditCaption: Human-Aligned Instruction Synthesis for Image Editing via Supervised Fine-Tuning and Direct Preference Optimization

Turns out, you can cut critical errors in VLM-generated image editing instructions in half with a clever two-stage training pipeline, leading to SOTA editing performance.

Xiangyuan Wang, Honghao Cai, Yunhao Bai +6

Computer Vision Data Curation & Synthetic Data Multimodal Models

Mar 12, 2026

SVLL: Staged Vision-Language Learning for Physically Grounded Embodied Task Planning

Forget end-to-end training and unstable RL: this staged learning approach with a novel Bias-DPO objective lets vision-language models plan physically plausible actions better than GPT-4o.

Yuyuan Yang, Junkun Hong, Hongrong Wang +9

Multimodal Models Robotics & Embodied AI World Models & Planning

Search

Honghao Cai

Research focus

Frequent co-authors

Papers (2)