Blair Yang

Department of Computer Science, University of Toronto, Coolwei AI Lab

Papers on Lattice

Total citations

Topics

h-index

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Difan Jiao (1)Qianfeng Wen (1)Zhenwei Tang (1)Ashton Anderson (1)

Papers (1)

Apr 2, 2026

Apr 2, 2026·also Coolwei AI Lab

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Jointly training LLMs to reason and refine their answers unlocks significant performance gains, outperforming standard policy optimization by up to 11.5 points on AIME.

Difan Jiao, Qianfeng Wen, Blair Yang +2

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Search

Blair Yang

Research focus

Frequent co-authors

Papers (1)