Haodong Li

LFPM achieves robust backdoor mitigation in model merging while maintaining clean-task performance, challenging the efficacy of traditional parameter-space defenses.

Zhenqian Zhu, Yamin Hu, Yiya Diao +2

Red-Teaming & Adversarial Robustness Training Efficiency & Optimization

May 27, 2026

May 27, 2026·also DAMO, M)

SIGMA: Semantic-Difference Instruction-Grounding Mask Annotator for Text-Driven Image Manipulation Localization

Unlock a treasure trove of free training data: SIGMA turns millions of unannotated image edits into high-quality pixel masks, boosting image manipulation detection by 18%.

Peiyu Zhuang, Jianquan Yang, Haodong Li +5

Computer Vision Data Curation & Synthetic Data Multimodal Models

Apr 15, 2026

Dinging Li +17Apr 15, 2026·also ZJU

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Forget noisy pseudo-labels: SpatialEvo unlocks self-supervised 3D spatial reasoning by generating perfectly accurate training data directly from scene geometry.

Dinging Li, Ding Li, Yingxiu Zhao +15

Computer Vision Robotics & Embodied AI World Models & Planning

Mar 11, 2026

WebVR: Benchmarking Multimodal LLMs for WebPage Recreation from Videos via Human-Aligned Visual Rubrics

Multimodal LLMs still struggle to faithfully recreate webpages from videos, particularly in capturing fine-grained style and motion, despite advances in other areas.

Yuhong Dai, Yanlin Lai, Mitt Huang +6

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Mar 9, 2026

Haodong Li +12Mar 9, 2026

CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

Forget fuzzy language – CoCo uses executable code as Chain-of-Thought to generate images with unprecedented control and precision, blowing away existing methods on complex scenes.

Haodong Li, Chunmei Qing, Huanyu Zhang +10

Code Generation & Program Synthesis Multimodal Models Reasoning & Chain-of-Thought

Mar 5, 2026

Microsoft ResearchMar 5, 2026·also NUS

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Forget unimodal tasks—UniM throws down the gauntlet for truly unified multimodal AI, demanding models juggle any combination of text, image, audio, video, code, documents, and 3D inputs and outputs in a single, interleaved stream.

Yanling Li, Minghui Guo, Kaiwen Zhang +13

Eval Frameworks & Benchmarks Multimodal Models Natural Language Processing

Mar 3, 2026

Weicai Yan +10Mar 3, 2026·also Shenzhen University

Proact-VL: A Proactive VideoLLM for Real-Time AI Companions

Real-time AI companions can now proactively interact with users thanks to Proact-VL, a framework that balances response latency, content quality, and video understanding.

Weicai Yan, Yuhong Dai, Qimu Ran +8

Eval Frameworks & Benchmarks Multimodal Models Tool Use & Agents

Search

Haodong Li

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (10)