Xibin Zhao

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Natural Language Processing (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Haoran Dang (1)Cuiling Lan (1)Hai Wan (1)Yan Lu (1)

Papers (1)

Feb 12, 2026

Haoran Dang +4Feb 12, 2026

Temperature as a Meta-Policy: Adaptive Temperature in LLM Reinforcement Learning

Forget fixed temperature schedules: TAMPO learns to adapt temperature on-the-fly, boosting LLM reinforcement learning performance on mathematical reasoning tasks.

Haoran Dang, Cuiling Lan, Hai Wan +2

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

Search

Xibin Zhao

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)