Qingtao Pan

×1 visual tokens, thus constructing SS nested visual tokens (i.e., Si∈{1,9,36,144,576}S_{i}\in\{1,9,36,144,576\}), where fewer tokens are obtained by progressively compressing denser tokens. To enhance the visual semantics of each visual token set, we propose FMVR and inject it into each

Papers on Lattice

Total citations

Topics

h-index

Research focus

Computer Vision (1)Multimodal Models (1)Training Efficiency & Optimization (1)

Frequent co-authors

Zhihao Dou (1)Shuo Li (1)

Papers (1)

Mar 11, 2026

Frequency-Modulated Visual Restoration for Matryoshka Large Multimodal Models

LMMs can slash FLOPs by 89% without sacrificing accuracy, thanks to a frequency-modulated visual restoration technique that preserves crucial visual semantics even with fewer tokens.

Qingtao Pan, Zhihao Dou, Shuo Li

Computer Vision Multimodal Models Training Efficiency & Optimization

Search

Qingtao Pan

Research focus

Frequent co-authors

Papers (1)