Wenhu Chen

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Computer Vision (2)Multimodal Models (2)Architecture Design (Transformers, SSMs, MoE) (1)Eval Frameworks & Benchmarks (1)

Frequent co-authors

Zhiheng Liu (1)Weiming Ren (1)Xiaoke Huang (1)Shoufa Chen (1)

Papers (2)

Apr 27, 2026

Zhiheng Liu +144d ago

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Ditching the vision encoder actually *improves* multimodal understanding at scale, proving that pixel embeddings alone can achieve state-of-the-art results in unified multimodal models.

Zhiheng Liu, Weiming Ren, Xiaoke Huang +12

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

4d ago

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning

Current VLM spatial reasoning benchmarks are misleading, as they often penalize models for "incorrect" answers that are actually correct given the limited visual information the models receive.

Yiming Zhang, Jiacheng Chen, Jiaqi Tan +3

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Search

Wenhu Chen

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)