Tianhao Peng

Mismatched SFT data hurting your LLM's reasoning? DART uses RL to transform it into perfectly aligned training examples, boosting generalization and efficiency.

Lisong Sun, Kui Zhang, Tianhao Peng +1

Data Curation & Synthetic Data Reasoning & Chain-of-Thought Training Efficiency & Optimization

May 25, 2026

May 25, 2026·also NTU

When Self-Belief Misleads: Active Label Acquisition for Reinforcement Learning with Verifiable Rewards

Overcome the prohibitive cost of ground-truth labels in reinforcement learning by actively acquiring labels for only the most valuable samples, leading to stable training and improved performance even with limited annotation budgets.

Xiaodong Lu, Xiaohan Wang, Yikun Ban +3

Data Curation & Synthetic Data RLHF & Preference Learning Scalable Oversight & Alignment Theory

Search

Tianhao Peng

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)