Yuling Yan

Papers on Lattice

Total citations

Topics

h-index

Research focus

RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Gen Li (1)

Papers (1)

Sep 26, 2025

Gen Li +1Sep 26, 2025

Towards Efficient Online Exploration for Reinforcement Learning with Human Feedback

Current optimism-based RLHF exploration can lead to linear regret, but a new uncertainty-focused exploration strategy achieves polynomial regret scaling in all model parameters.

Gen Li, Yuling Yan

RLHF & Preference Learning Training Efficiency & Optimization

Search

Yuling Yan

Research focus

Frequent co-authors

Papers (1)