Haoyu Cao

Papers on Lattice

Total citations

Topics

h-index

Research focus

Computer Vision (3)Multimodal Models (3)Eval Frameworks & Benchmarks (1)Reasoning & Chain-of-Thought (1)Architecture Design (Transformers, SSMs, MoE) (1)

Frequent co-authors

Yunhang Shen (2)Caifeng Shan (2)Ran He (2)Chaoyou Fu (1)

Papers (3)

Apr 6, 2026

Chaoyou Fu +22Apr 6, 2026·also NJU

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Leaderboard-topping video models are still surprisingly brittle, failing on basic video reasoning tasks unless given the right textual cues.

Chaoyou Fu, Hao Yuan, Haozhi Yuan +20

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Mar 17, 2026

Mar 17, 2026·also State Key Laboratory of Cognitive, University of Science and Technology

When Thinking Hurts: Mitigating Visual Forgetting in Video Reasoning via Frame Repetition

Video-LLMs can hallucinate and perform *worse* with chain-of-thought reasoning due to "visual anchor drifting," but a simple frame repetition strategy guided by a learned scoring function can fix it.

Xiaokun Sun, Haoyu Cao, Linli Xu

Computer Vision Multimodal Models Reasoning & Chain-of-Thought

Mar 6, 2026

Lijiang Li +8Mar 6, 2026·also NJU

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Ditch autoregressive MLLMs: Omni-Diffusion proves that mask-based discrete diffusion models can unify multimodal understanding and generation across text, speech, and images with competitive performance.

Lijiang Li, Zuwei Long, Yunhang Shen +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Search

Haoyu Cao

Research focus

Frequent co-authors

Papers (3)