Zilong Huang

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Computer Vision (1)Multimodal Models (1)

Frequent co-authors

Yan Fang (1)Mengcheng Lan (1)Weixian Lei (1)Yunqing Zhao (1)

Papers (1)

May 1, 2026

Yan Fang +9May 1, 2026·also ByteDance

Let ViT Speak: Generative Language-Image Pre-training

Ditch the complex multimodal pre-training pipelines: GenLIP proves a simple language modeling objective can effectively align vision encoders with LLMs, achieving strong performance with less data.

Yan Fang, Mengcheng Lan, Zilong Huang +7

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Search

Zilong Huang

Research focus

Frequent co-authors

Papers (1)