Shuning Shang

Princeton University

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Natural Language Processing (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Hubert Strauss (1)Stanley Wei (1)Sanjeev Arora (1)Noam Razin (1)

Papers (1)

Apr 28, 2026

3w ago

When Errors Can Be Beneficial: A Categorization of Imperfect Rewards for Policy Gradient

Imperfect rewards can actually *help* policy gradient methods escape local optima, challenging the conventional wisdom that reward accuracy is always paramount.

Shuning Shang, Hubert Strauss, Stanley Wei +2

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

Search

Shuning Shang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)