Zixuan Huang

Papers on Lattice

Total citations

Topics

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)

Frequent co-authors

Huaiyang Wang (1)Deqing Wang (1)Haoyi Zhou (1)Jianxin Li (1)

Papers (1)

Apr 1, 2026

Huaiyang Wang +5Apr 1, 2026·also Beihang

Policy Improvement Reinforcement Learning

RLHF can be made more stable and effective by explicitly verifying and reinforcing policy improvements against a historical baseline, rather than relying solely on instantaneous reward signals.

Huaiyang Wang, Deqing Wang, Haoyi Zhou +3

Reasoning & Chain-of-Thought RLHF & Preference Learning

Search

Zixuan Huang

Research focus

Frequent co-authors

Papers (1)