Antonio De Domenico

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Mohamed Sana (1)Nicola Piovesan (1)Fadhel Ayed (1)Haozhe Zhang (1)

Papers (1)

May 28, 2026

3d ago

HPO: Hysteretic Policy Optimization for Stable and Efficient Training under Sparse-Reward Regime

A-HPO significantly boosts reward acquisition in sparse-reward RL by adaptively balancing positive and negative advantage signals, outperforming GRPO, GSPO, and SAPO, especially in the critical early stages of training.

Mohamed Sana, Nicola Piovesan, Antonio De Domenico +2

RLHF & Preference Learning Training Efficiency & Optimization

Search

Antonio De Domenico

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)