Yixia Li

Southern University of Science and Technology

Papers on Lattice

Total citations

Topics

h-index

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Tianyi Wang (1)Long Li (1)Yibiao Chen (1)Shaohan Huang (1)

Papers (1)

Apr 10, 2026

Apr 10, 2026·also Tsinghua AI, SUSTech

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

PPO can be made sample-efficient and stable for long-horizon reasoning in LLMs by treating the problem as a sequence-level contextual bandit, sidestepping the need for computationally expensive multi-sampling.

Tianyi Wang, Yixia Li, Long Li +4

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Search

Yixia Li

Research focus

Frequent co-authors

Papers (1)