Dongsheng Li

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (3)Distributed Systems & Hardware (2)Training Efficiency & Optimization (2)Computer Vision (1)Inference & Quantization (1)

Frequent co-authors

Kaiyuan Tian (2)Baihui Liu (2)Yu Tang (1)Gongqingjian Jiang (1)

Papers (3)

Apr 9, 2026

GRASS: Gradient-based Adaptive Layer-wise Importance Sampling for Memory-efficient Large Language Model Fine-tuning

Forget static layer selection – GRASS dynamically adapts which layers to fine-tune based on gradient norms, unlocking significant memory savings and accuracy gains.

Kaiyuan Tian, Yu Tang, Gongqingjian Jiang +5

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Tsinghua AIApr 9, 2026·also CMU ML

Kuramoto Oscillatory Phase Encoding: Neuro-inspired Synchronization for Improved Learning Efficiency

Neural synchronization, long hypothesized to support flexible coordination in biological brains, can now be harnessed to improve the learning efficiency of Vision Transformers.

Mingqing Xiao, Yansen Wang, Dongqi Han +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Baihui Liu +4Apr 9, 2026

Alloc-MoE: Budget-Aware Expert Activation Allocation for Efficient Mixture-of-Experts Inference

Squeeze 34% more decode speed out of your MoE model without sacrificing accuracy by intelligently budgeting expert activations.

Baihui Liu, Kaiyuan Tian, Zhaoning Zhang +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Search

Dongsheng Li

Research focus

Frequent co-authors

Papers (3)