Aleksei Petrenko

University of Southern California

Papers on Lattice

Total citations

Topics

h-index

Research focus

Natural Language Processing (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Ben Lipkin (1)Kevin Chen (1)Erik Wijmans (1)Marco Cusumano-Towner (1)

Papers (1)

Mar 12, 2026

Entropy-Preserving Reinforcement Learning

Policy gradient methods may be self-defeating in language model reasoning, as their inherent entropy reduction chokes off exploration and limits downstream performance.

Aleksei Petrenko, Ben Lipkin, Kevin Chen +4

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

Search

Aleksei Petrenko

Research focus

Frequent co-authors

Papers (1)