Leyi Pan

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Reasoning & Chain-of-Thought (1)Training Efficiency & Optimization (1)

Frequent co-authors

Shuchang Tao (1)Yunpeng Zhai (1)Lingzhe Zhang (1)Zhaoyang Liu (1)

Papers (1)

Jun 10, 2026

Tsinghua AI5d ago·also DAMO, HKUST, PKU

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

Privilege-induced style drift can undermine reasoning model performance, but RLCSD effectively redirects the learning signal to focus on what truly matters—task-relevant tokens.

Leyi Pan, Shuchang Tao, Yunpeng Zhai +5

Reasoning & Chain-of-Thought Training Efficiency & Optimization

Search

Leyi Pan

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)