Yuanda Xu

Papers on Lattice

Total citations

Topics

Research focus

Inference & Quantization (2)Training Efficiency & Optimization (2)Reasoning & Chain-of-Thought (2)RLHF & Preference Learning (1)

Frequent co-authors

Yuan Xu (3)Hejian Sang (3)Zhengze Zhou (2)Ran He (2)

Papers (3)

Apr 15, 2026

Yuanda Xu +7Apr 15, 2026

TIP: Token Importance in On-Policy Distillation

Overconfident tokens, often missed by entropy-based methods, carry surprisingly dense corrective signals in on-policy distillation, allowing for near-baseline performance with <10% of tokens.

Yuanda Xu, Yuan Xu, Hejian Sang +5

Inference & Quantization Training Efficiency & Optimization

Mar 5, 2026

Hejian Sang +9Mar 5, 2026

On-Policy Self-Distillation for Reasoning Compression

Reasoning models aren't just verbose, they're actively *harmed* by their own verbosity, but a simple self-distillation trick can compress their outputs by up to 59% while boosting accuracy by up to 16 points.

Hejian Sang, Yuanda Xu, Yuan Xu +7

Inference & Quantization Reasoning & Chain-of-Thought Training Efficiency & Optimization

Feb 24, 2026

Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning

Overconfident errors in RLVR monopolize probability mass and suppress exploration, but a confidence-aware penalty fixes this and boosts mathematical reasoning performance.

Yuanda Xu, Yuan Xu, Hejian Sang +3

Reasoning & Chain-of-Thought RLHF & Preference Learning

Search

Yuanda Xu

Research focus

Frequent co-authors

Papers (3)