A. Grama

Purdue University

Papers on Lattice

Total citations

Topics

h-index

Research focus

Constitutional AI & AI Ethics (1)Data Curation & Synthetic Data (1)RLHF & Preference Learning (1)

Frequent co-authors

Yifan Wang (1)Runjin Chen (1)Bolian Li (1)David Cho (1)

Papers (1)

Apr 3, 2025

Tsinghua AIApr 3, 2025·also ECNU, Hebei University of Science and Technology, Purdue, UNC +1

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment

Using preference data from stronger models to align LLMs via DPO can backfire, dramatically worsening safety by making models more susceptible to jailbreaking.

Yifan Wang, Runjin Chen, Bolian Li +75

Constitutional AI & AI Ethics Data Curation & Synthetic Data RLHF & Preference Learning

Search

A. Grama

Research focus

Frequent co-authors

Papers (1)