Qi Lin

Beijing University of Posts and Telecommunications

Papers on Lattice

Total citations

Topics

h-index

Research focus

Data Curation & Synthetic Data (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Hengtong Lu (1)Caixia Yuan (1)Xiaojie Wang (1)Huixing Jiang (1)

Papers (1)

Apr 11, 2025

Apr 11, 2025·also Imperial, Kuaishou, Li Auto

Data with High and Consistent Preference Difference Are Better for Reward Model

Stop wasting compute on noisy preference data: filtering your RLHF datasets by "Preference Difference" boosts reward model accuracy and alignment performance.

Qi Lin, Hengtong Lu, Caixia Yuan +3

Data Curation & Synthetic Data RLHF & Preference Learning Training Efficiency & Optimization

Search

Qi Lin

Research focus

Frequent co-authors

Papers (1)