Weidi Xu

Papers on Lattice

Total citations

Topics

h-index

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Zhijian Zhou (1)Tianyi Wang (1)Zuming Huang (1)Wei Chu (1)

Papers (1)

Mar 17, 2026

Mar 17, 2026·also Fudan, INFLY Tech, PKU, University of Georgia +1

DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

By prioritizing diversity over accuracy in experience replay, DyJR significantly boosts LLM reasoning performance in RL, outperforming GRPO and other baselines without sacrificing training efficiency.

Zhijian Zhou, Tianyi Wang, Weidi Xu +4

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Search

Weidi Xu

Research focus

Frequent co-authors

Papers (1)