Yongcan Yu

NLPR & MAIS, Institute of Automation, Chinese Academy of Sciences, School of Artificial Intelligence, University of Chinese Academy of Sciences

Papers on Lattice

Total citations

Topics

h-index

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)

Frequent co-authors

Lingxiao He (1)Jian Liang (1)Kuangpu Guo (1)Meng Wang (1)

Papers (1)

Apr 23, 2026

Apr 23, 2026·also Meituan

Understanding and Mitigating Spurious Signal Amplification in Test-Time Reinforcement Learning for Math Reasoning

Test-time RL's vulnerability to noisy pseudo-labels is amplified by group-relative advantage estimation, but can be mitigated with a surprisingly simple debiasing and denoising approach.

Yongcan Yu, Lingxiao He, Jian Liang +5

Reasoning & Chain-of-Thought RLHF & Preference Learning

Search

Yongcan Yu

Research focus

Frequent co-authors

Papers (1)