Li He

Papers on Lattice

Total citations

Topics

h-index

Research focus

Natural Language Processing (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

He Zhao (1)Stephen Wan (1)Dadong Wang (1)Lina Yao (1)

Papers (1)

Apr 19, 2025

Apr 19, 2025·also D cubic B-spline basis. Further

Direct Advantage Regression: Aligning LLMs with Online AI Reward

LLMs learn better from AI *reward* than AI *preference*, leading to higher human-AI agreement and improved performance compared to standard online AI feedback and RLHF.

Li He, He Zhao, Stephen Wan +3

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

Search

Li He

Research focus

Frequent co-authors

Papers (1)