Yansheng Wang

Papers on Lattice

Total citations

Topics

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Xu Wan (1)Wenqi Huang (1)

Papers (1)

Feb 24, 2026

Xu Wan +2Feb 24, 2026·also Datacurve

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

Off-policy reinforcement learning can boost LLM reasoning by 12.5% and solve 40% more problems compared to on-policy methods, simply by re-evaluating and reusing historically difficult samples.

Xu Wan, Yansheng Wang, Wenqi Huang

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Search

Yansheng Wang

Research focus

Frequent co-authors

Papers (1)