Xiyan Fu

Southeast University, Nanyang Technological University

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (2)Reasoning & Chain-of-Thought (1)

Frequent co-authors

Guozheng Li (1)Yiwen Guo (1)Wei Liu (1)

Papers (2)

Jun 9, 2026

Jun 9, 2026·also China University of Mining and Technology, NTU, SEU

Representation-Aware Advantage Estimation: Your Reward Model Provides More Than A Scalar Output

Leveraging hidden states from reward models can boost RLHF performance by over 6% on challenging benchmarks, transforming how we utilize reward signals.

Guozheng Li, Xiyan Fu, Yiwen Guo

RLHF & Preference Learning

May 6, 2026

May 6, 2026·also NTU

Reinforcement Learning for Compositional Generalization with Outcome-Level Optimization

RL can unlock better compositional generalization than supervised fine-tuning by directly optimizing for correct outcomes, especially on complex tasks where supervised models overfit.

Xiyan Fu, Wei Liu

Reasoning & Chain-of-Thought RLHF & Preference Learning

Search

Xiyan Fu

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)