Takeshi Kojima

The University of Tokyo

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Reasoning & Chain-of-Thought (2)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)Eval Frameworks & Benchmarks (1)

Frequent co-authors

Shota Takashiro (2)Soichiro Nishimori (2)Paavo Parmas (2)Kohsei Matsutani (2)

Papers (3)

Jun 4, 2026

2w ago·also RIKEN

On Advantage Estimates for Max@K Policy Gradients

Centering advantages in policy gradients can drastically reduce variance and improve performance in reinforcement learning tasks.

Shota Takashiro, Soichiro Nishimori, Paavo Parmas +3

Reasoning & Chain-of-Thought RLHF & Preference Learning

2w ago·also RIKEN

OrderGrad: Optimizing Beyond the Mean with Order-Statistic Policy Gradient Estimation

OrderGrad transforms policy-gradient optimization by enabling precise control over distributional properties, allowing for risk-averse and exploratory learning in real-world applications.

Paavo Parmas, Kohsei Matsutani, Shota Takashiro +2

Training Efficiency & Optimization

Feb 26, 2026

Feb 26, 2026·also Kyoto

ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making

LLMs that ace medical exams still fumble basic clinical judgment, prematurely deciding cases or abstaining unnecessarily when information is incomplete, revealing a critical gap in their real-world applicability.

Yusuke Watanabe, Yohei Kobashi, Yohei Kobashi +6

Eval Frameworks & Benchmarks Natural Language Processing Reasoning & Chain-of-Thought

Search

Takeshi Kojima

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)