Yifan Wang

Purdue University, East China Normal University, Tsinghua University, Hebei University of Science and Technology

Tsinghua AI

Papers on Lattice

Total citations

Topics

h-index

Research focus

Constitutional AI & AI Ethics (1)Data Curation & Synthetic Data (1)RLHF & Preference Learning (1)

Frequent co-authors

Runjin Chen (1)Bolian Li (1)David Cho (1)Yihe Deng (1)

Papers (1)

Apr 3, 2025

Tsinghua AIApr 3, 2025·also ECNU, Hebei University of Science and Technology, Purdue, UNC +1

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

Using preference data from stronger models to align LLMs via DPO can backfire, dramatically worsening safety by making models more susceptible to jailbreaking.

Yifan Wang, Runjin Chen, Bolian Li +75

Constitutional AI & AI Ethics Data Curation & Synthetic Data RLHF & Preference Learning

Search

Yifan Wang

Research focus

Frequent co-authors

Papers (1)