2026

RLHF in an SFT Way: From Optimal Solution to Reward-Weighted Alignment

Yuhao Du, Zhuo Li, Pengyu Cheng, Zhihong Chen, Yuejiao Xie, Xiang Wan, Anningzhe Gao

AI Summary

A novel simplification of RLHF is proposed from the perspective of variational inference, called V ariational A lignment with R e-weighting ( VAR), which transforms the alignment objective into an offline reward-driven re-weighted supervised fine-tuning (SFT) form.

Citation Metrics

Citations0

Influential citations0

References60

Year2026

VenueTrans. Mach. Learn. Res.

Related Papers

Finding related papers...

Search

RLHF in an SFT Way: From Optimal Solution to Reward-Weighted Alignment

Related Papers