Khoa D. Doan

Papers on Lattice

Total citations

Topics

h-index

Research focus

RLHF & Preference Learning (1)Scalable Oversight & Alignment Theory (1)Training Efficiency & Optimization (1)

Frequent co-authors

Phuc Minh Nguyen (1)Ngoc-Hieu Nguyen (1)D. M. Nguyen (1)Anji Liu (1)

Papers (1)

Jun 10, 2025

Phuc Minh Nguyen +7Jun 10, 2025

Mitigating Reward Over-optimization in Direct Alignment Algorithms with Importance Sampling

Direct Preference Optimization (DPO) can be rescued from performance collapse with a simple importance sampling fix, especially when regularization is weak.

Phuc Minh Nguyen, Ngoc-Hieu Nguyen, D. M. Nguyen +5

RLHF & Preference Learning Scalable Oversight & Alignment Theory Training Efficiency & Optimization

Search

Khoa D. Doan

Research focus

Frequent co-authors

Papers (1)