Lattice AI Research

Research focus

RLHF & Preference Learning (2)Reasoning & Chain-of-Thought (1)Training Efficiency & Optimization (1)Data Curation & Synthetic Data (1)Scalable Oversight & Alignment Theory (1)

Frequent co-authors

Jiajun Chai (2)Xiaohan Wang (2)Zili Wang (1)Shiming Xiang (1)

Papers (2)

May 27, 2026

May 27, 2026·also Institute of Automation

Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

Jointly training MTP and RL doesn't have to hurt: a simple coefficient calibration scheme unlocks performance gains on mathematical reasoning tasks.

Zili Wang, Jiajun Chai, Xiaohan Wang +2

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

May 25, 2026

May 25, 2026·also NTU

When Self-Belief Misleads: Active Label Acquisition for Reinforcement Learning with Verifiable Rewards

Overcome the prohibitive cost of ground-truth labels in reinforcement learning by actively acquiring labels for only the most valuable samples, leading to stable training and improved performance even with limited annotation budgets.

Xiaodong Lu, Xiaohan Wang, Yikun Ban +3

Data Curation & Synthetic Data RLHF & Preference Learning Scalable Oversight & Alignment Theory

Search

Guojun Yin

Research focus

Frequent co-authors

Papers (2)