Chiyu Ma

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (2)Reasoning & Chain-of-Thought (1)Training Efficiency & Optimization (1)

Frequent co-authors

Jinda Lu (2)Kexin Huang (2)Shuo Yang (2)Guoyin Wang (2)

Papers (2)

Jun 29, 2026

Jinda Lu +83w ago

Experience Augmented Policy Optimization for LLM Reasoning

EAPO revolutionizes LLM reasoning by dynamically integrating prior experiences, leading to consistent performance gains over traditional RLVR methods.

Jinda Lu, Kexin Huang, Junkang Wu +6

Reasoning & Chain-of-Thought RLHF & Preference Learning

May 21, 2026

Shuo Yang +6May 21, 2026

Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals

Rigid reward clipping throws away valuable information just beyond the boundary, but a simple stochastic rescue of these signals can substantially boost RLVR performance.

Shuo Yang, Jinda Lu, Chiyu Ma +4

RLHF & Preference Learning Training Efficiency & Optimization

Search

Chiyu Ma

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)