Tianlong Chen

The University of North Carolina at Chapel Hill, [

Papers on Lattice

Total citations

Topics

h-index

Research focus

Constitutional AI & AI Ethics (1)Data Curation & Synthetic Data (1)RLHF & Preference Learning (1)

Frequent co-authors

Yifan Wang (1)Runjin Chen (1)Bolian Li (1)David Cho (1)

Papers (1)

Apr 3, 2025

Tsinghua AIApr 3, 2025·also ECNU, Hebei University of Science and Technology, Purdue, UNC +1

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

Using preference data from stronger models to align LLMs via DPO can backfire, dramatically worsening safety by making models more susceptible to jailbreaking.

Yifan Wang, Runjin Chen, Bolian Li +75

Constitutional AI & AI Ethics Data Curation & Synthetic Data RLHF & Preference Learning

Search

Tianlong Chen

Research focus

Frequent co-authors

Papers (1)