Lattice AI Research

Research focus

Training Efficiency & Optimization (2)Inference & Quantization (1)Natural Language Processing (1)RLHF & Preference Learning (1)

Frequent co-authors

Yuxin Zuo (2)Bingxiang He (2)Cheng Qian (2)Huan-ang Gao (2)

Papers (2)

Apr 14, 2026

Tsinghua AI1w ago

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

OPD's "free lunch" of dense token-level reward may be an illusion, as teacher novelty, not just higher scores, drives successful distillation.

Yuxin Zuo, Yuxin Zuo, Bingxiang He +9

Inference & Quantization Natural Language Processing Training Efficiency & Optimization

Mar 9, 2026

Tsinghua AIMar 9, 2026

How Far Can Unsupervised RLVR Scale LLM Training?

Intrinsic reward signals in unsupervised RL for LLMs inevitably collapse due to sharpening of the model's prior, but external rewards grounded in computational asymmetries offer a path to sustained scaling.

Bingxiang He, Bingxiang He, Yuxin Zuo +30

RLHF & Preference Learning Scalable Oversight & Alignment Theory Training Efficiency & Optimization

Ning Ding

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)

Search

Ning Ding

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)