Xiaoke Huang

Ditching the vision encoder actually *improves* multimodal understanding at scale, proving that pixel embeddings alone can achieve state-of-the-art results in unified multimodal models.

Zhiheng Liu, Weiming Ren, Xiaoke Huang +12

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Feb 25, 2026

Feb 25, 2026·also Emory, HKU, UC Santa Cruz, ZJU

VecGlypher: Unified Vector Glyph Generation with Language Models

Imagine designing custom fonts simply by describing them or providing a reference image – VecGlypher makes it a reality by directly generating editable vector glyphs with a single multimodal language model.

Xiaoke Huang, Bhavul Gauri, Bhavul Gauri +17

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Natural Language Processing

Search

Xiaoke Huang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)