Wei Chu

×10−41\times 10^{-4}. We adopt a learning rate scheduling strategy that combines a linear warm-up (initial 5 epochs) with a cosine annealing decay. The base learning rate is set to

Papers on Lattice

Total citations

Topics

h-index

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Zhijian Zhou (1)Tianyi Wang (1)Weidi Xu (1)Zuming Huang (1)

Papers (1)

Mar 17, 2026

Mar 17, 2026·also Fudan, INFLY Tech, PKU, University of Georgia +1

DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

By prioritizing diversity over accuracy in experience replay, DyJR significantly boosts LLM reasoning performance in RL, outperforming GRPO and other baselines without sacrificing training efficiency.

Zhijian Zhou, Tianyi Wang, Weidi Xu +4

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Search

Wei Chu

Research focus

Frequent co-authors

Papers (1)