Lei Huang

Papers on Lattice

Total citations

Topics

h-index

Research focus

RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Guobin Shen (1)Chenxiao Zhao (1)Xiang Cheng (1)Xing Yu (1)

Papers (1)

Feb 11, 2026

Guobin Shen +4Feb 11, 2026

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

VESPO stabilizes off-policy RL training for LLMs by directly reshaping sequence-level importance weights, tolerating 64x policy staleness and asynchronous execution without collapse.

Guobin Shen, Chenxiao Zhao, Xiang Cheng +2

RLHF & Preference Learning Training Efficiency & Optimization

Search

Lei Huang

Research focus

Frequent co-authors

Papers (1)