Huixing Jiang

Papers on Lattice

Total citations

Topics

h-index

Research focus

Data Curation & Synthetic Data (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Qi Lin (1)Hengtong Lu (1)Caixia Yuan (1)Xiaojie Wang (1)

Papers (1)

Apr 11, 2025

Apr 11, 2025·also Imperial, Kuaishou, Li Auto

Data with High and Consistent Preference Difference Are Better for Reward Model

Stop wasting compute on noisy preference data: filtering your RLHF datasets by "Preference Difference" boosts reward model accuracy and alignment performance.

Qi Lin, Hengtong Lu, Caixia Yuan +3

Data Curation & Synthetic Data RLHF & Preference Learning Training Efficiency & Optimization

Search

Huixing Jiang

Research focus

Frequent co-authors

Papers (1)