Latticethe structure behind the noise

Papers Digest Topics Selected Labs Collections FAQ

Created by Flynn Lachendro

Papers Digest Topics Labs Saved

Search

Search papers, labs, and topics across Lattice.

Built by Flynn Lachendro·𝕏 / Twitter·RSS··FAQ·Glossary·Privacy

Gouki Minegishi | Lattice

Gouki Minegishi

The University of Tokyo

Papers on Lattice

1

Total citations

0

Topics

2

Publication activitypapers/week, last 8 weeks

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)

Frequent co-authors

Shota Takashiro (1)Soichiro Nishimori (1)Paavo Parmas (1)Yongmin Kim (1)

Papers (1)

Jun 4, 2026

1w ago

On Advantage Estimates for Max@K Policy Gradients

Centering advantages in policy gradients can drastically reduce variance and improve performance in reinforcement learning tasks.

Shota Takashiro, Soichiro Nishimori, Paavo Parmas +6

Reasoning & Chain-of-Thought RLHF & Preference Learning

Kohsei Matsutani (1)

Yusuke Iwasawa (1)

Takeshi Kojima (1)

Yutaka Matsuo (1)