Zhao Zhong

Current image difference captioning benchmarks fail to capture semantic consistency and penalize hallucinations, but DiffCap-Bench offers a robust alternative that aligns with human expert judgments and predicts downstream utility for image editing.

Yuancheng Wei, Haojie Zhang, Linli Yao +5

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Apr 9, 2026

Xiangyue Liu +5Apr 9, 2026·also Corresponding author, Tencent AI

Symbiotic-MoE: Unlocking the Synergy between Generation and Understanding

LMMs can learn to generate images *and* improve their understanding abilities, without catastrophic forgetting, by carefully disentangling and sharing experts within a MoE architecture.

Xiangyue Liu, Zijian Zhang, Miles Yang +3

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

Mar 31, 2026

Shuang Chen +18Mar 31, 2026·also Tencent AI

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

By tightly coupling reasoning, searching, and generation, Unify-Agent demonstrates that agent-based modeling can substantially improve world knowledge grounding in image synthesis, rivaling closed-source models.

Shuang Chen, Quanxin Shou, Hangting Chen +16

Computer Vision Multimodal Models Tool Use & Agents

Mar 16, 2026

Mar 16, 2026·also RUC, TAU

HYDRA: Unifying Multi-modal Generation and Understanding via Representation-Harmonized Tokenization

Achieve SOTA in both visual generation and understanding by harmonizing generative and semantic representations within a single ViT architecture.

Yutao Cui, Junzhe Li, Jiakui Hu +4

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

Mar 11, 2026

Mar 11, 2026·also PKU, Tencent AI, ZJU

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

Ditch discrete visual tokens: UniCom achieves SOTA multimodal generation by compressing continuous semantic representations, unlocking better controllability and consistency in image editing.

Wang Lin, Miles Yang, Jingyuan Chen +3

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

Search

Zhao Zhong

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (6)