2025

ADPO: Anchored Direct Preference Optimization

AI Summary

ADPO (Anchored Direct Preference Optimization) is introduced, a unified mathematical framework that generalizes DPO to: soft preference probabilities encoding confidence and uncertainty; arbitrary reference policy anchors that stabilize optimization through groupwise shift invariance; and groupwise (listwise) preference modeling via Plackett–Luce distributions.

Citation Metrics

Citations0

Influential citations0

References24

Year2025

VenuearXiv.org

Related Papers

Finding related papers...

Search

ADPO: Anchored Direct Preference Optimization

Related Papers