Paulius Sasnauskas

Papers on Lattice

Total citations

Topics

h-index

Research focus

Red-Teaming & Adversarial Robustness (1)RLHF & Preference Learning (1)

Frequent co-authors

Debmalya Mandal (1)Goran Radanovic (1)

Papers (1)

Mar 1, 2025

Debmalya Mandal +2Mar 1, 2025

Distributionally Robust Reinforcement Learning with Human Feedback

RLHF models can be made significantly more robust to distribution shift by incorporating distributionally robust optimization into both reward modeling and policy optimization.

Debmalya Mandal, Paulius Sasnauskas, Goran Radanovic6

Red-Teaming & Adversarial Robustness RLHF & Preference Learning

Search

Paulius Sasnauskas

Research focus

Frequent co-authors

Papers (1)