Long Li

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Tianyi Wang (1)Yixia Li (1)Yibiao Chen (1)Shaohan Huang (1)

Papers (1)

Apr 10, 2026

Tsinghua AI2w ago·also SUSTech

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

PPO can be made sample-efficient and stable for long-horizon reasoning in LLMs by treating the problem as a sequence-level contextual bandit, sidestepping the need for computationally expensive multi-sampling.

Tianyi Wang, Yixia Li, Long Li +4

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Search

Long Li

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)