Akshat Kumar

Papers on Lattice

Total citations

Topics

h-index

Research focus

Constitutional AI & AI Ethics (1)RLHF & Preference Learning (1)

Frequent co-authors

Ze Gong (1)Pradeep Varakantham (1)

Papers (1)

Dec 23, 2025

Offline Safe Policy Optimization From Heterogeneous Feedback

Forget reward and cost models: PreSa directly learns safe policies from offline preferences and safety labels, outperforming traditional constrained RL approaches.

Ze Gong, Pradeep Varakantham, Akshat Kumar

Constitutional AI & AI Ethics RLHF & Preference Learning

Search

Akshat Kumar

Research focus

Frequent co-authors

Papers (1)