Yuning Wu

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Ke Wang (1)Devin Chen (1)Kaichen Wei (1)

Papers (1)

Mar 11, 2026

Yuning Wu +35d ago

Hindsight-Anchored Policy Optimization: Turning Failure into Feedback in Sparse Reward Settings

By selectively injecting teacher demonstrations only during failure, HAPO overcomes the limitations of both pure RL and mixed-policy optimization in sparse-reward RLVR, enabling models to surpass static teacher forcing.

Yuning Wu, Ke Wang, Devin Chen +1

RLHF & Preference Learning Training Efficiency & Optimization

Search

Yuning Wu

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)