Shulin Huang

Papers on Lattice

Total citations

Topics

h-index

Research focus

Data Curation & Synthetic Data (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Junshu Pan (1)Wei Shen (1)Qiji Zhou (1)Yue Zhang (1)

Papers (1)

Apr 22, 2025

Junshu Pan +4Apr 22, 2025

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model

Initializing the DPO reference model *before* training, rather than identically to the policy, unlocks better preference optimization and beats standard DPO.

Junshu Pan, Wei Shen, Shulin Huang +26

Data Curation & Synthetic Data RLHF & Preference Learning Training Efficiency & Optimization

Search

Shulin Huang

Research focus

Frequent co-authors

Papers (1)