Yuqi Yuan

School of Computer and Communication Engineering, University of Science and Technology Beijing, Beijing, China

Papers on Lattice

Total citations

Topics

h-index

Research focus

Natural Language Processing (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Teng Ma (1)Xiong Luo (1)

Papers (1)

Sep 29, 2025

IWPO: Sample Importance Weight-Based Human Preference Optimization for Large Language Models

IWPO tackles reward hacking and suboptimal policy distribution in DPO by weighting samples based on their adherence to the optimal policy, leading to significant gains in LLM performance.

Teng Ma, Xiong Luo, Yuqi Yuan

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

Search

Yuqi Yuan

Research focus

Frequent co-authors

Papers (1)