Shoufa Chen

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Computer Vision (1)Multimodal Models (1)

Frequent co-authors

Zhiheng Liu (1)Weiming Ren (1)Xiaoke Huang (1)Tianhong Li (1)

Papers (1)

Apr 27, 2026

Zhiheng Liu +14Apr 27, 2026·also UCSC

Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

Ditching the vision encoder actually *improves* multimodal understanding at scale, proving that pixel embeddings alone can achieve state-of-the-art results in unified multimodal models.

Zhiheng Liu, Weiming Ren, Xiaoke Huang +12

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Search

Shoufa Chen

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)