Kaiwen Long

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (2)Architecture Design (Transformers, SSMs, MoE) (1)Reasoning & Chain-of-Thought (1)Computer Vision (1)

Frequent co-authors

HanZpeng Liu (2)Yaqian Li (2)Zidan Wang (2)Shuoxi Zhang (2)

Papers (2)

Mar 3, 2026

HanZpeng Liu +71w ago

iGVLM: Dynamic Instruction-Guided Vision Encoding for Question-Aware Multimodal Understanding

Instruction-guided visual modulation with iGVLM unlocks more fine-grained reasoning in LVLMs, outperforming static vision encoders by dynamically adapting visual representations to the specific textual task.

HanZpeng Liu, Yaqian Li, Zidan Wang +5

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Reasoning & Chain-of-Thought

HanZpeng Liu +71w ago

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

Image-text models can achieve superior performance by fusing modalities during training only, then discarding the fusion module at inference for efficiency.