Yongmin Kim

The University of Tokyo

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Shota Takashiro (2)Soichiro Nishimori (2)Paavo Parmas (2)Kohsei Matsutani (2)

Papers (2)

Jun 4, 2026

1w ago

On Advantage Estimates for Max@K Policy Gradients

Centering advantages in policy gradients can drastically reduce variance and improve performance in reinforcement learning tasks.

Shota Takashiro, Soichiro Nishimori, Paavo Parmas +6

Reasoning & Chain-of-Thought RLHF & Preference Learning

1w ago

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation

OrderGrad transforms policy-gradient optimization by enabling precise control over distributional properties, allowing for risk-averse and exploratory learning in real-world applications.

Paavo Parmas, Yongmin Kim, Kohsei Matsutani +5

Training Efficiency & Optimization

Search

Yongmin Kim

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)