Ahsan Habib Akash

West Virginia University, USA

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (1)Scalable Oversight & Alignment Theory (1)Training Efficiency & Optimization (1)

Frequent co-authors

Shourov Joarder (1)Diganta Sikdar (1)Binod Bhattarai (1)Prashnna Gyawali (1)

Papers (1)

May 21, 2026

2w ago·also University of Aberdeen, West Virginia University

Two is better than one: A Collapse-free Multi-Reward RLIF Training Framework

Forget reward hacking and entropy collapse: multi-reward RLIF, combining answer-level and completion-level signals, unlocks stable and robust LLM reasoning without human supervision.

Shourov Joarder, Diganta Sikdar, Ahsan Habib Akash +2

RLHF & Preference Learning Scalable Oversight & Alignment Theory Training Efficiency & Optimization

Search

Ahsan Habib Akash

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)