Lixing Shen

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Inference & Quantization (1)Multimodal Models (1)

Frequent co-authors

Xiaoran Fan (1)Zhichao Sun (1)Tao Ji (1)Tao Gui (1)

Papers (1)

Jan 16, 2026

MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models

Retrofit your VLMs with Multi-Head Latent Attention (MLA) for faster inference and smaller memory footprint, without costly pretraining, using this parameter-efficient conversion framework.

Xiaoran Fan, Zhichao Sun, Tao Ji +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Multimodal Models

Search

Lixing Shen

Research focus

Frequent co-authors

Papers (1)