Rémi Munos

FAIR at Meta, Inria, Sorbonne Université, Institut universitaire de France, CERMICS École des Ponts ParisTech, PSL Research University

Meta AI (FAIR)

Papers on Lattice

Total citations

Topics

Research focus

Training Efficiency & Optimization (2)World Models & Planning (2)Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)

Frequent co-authors

Michal Valko (3)Jean-Bastien Grill (2)Gaetan Narozniak (1)Gérard Biau (1)

Papers (4)

May 29, 2026

Meta AIMay 29, 2026·also CERMICS École des Ponts ParisTech, ENS, INRIA, Institut universitaire de France +2

Distilling LLM Feedback for Lean Theorem Proving

Feedback Distillation boosts reasoning model performance by enhancing trajectory diversity and policy entropy, outperforming traditional methods like GRPO.

Gaetan Narozniak, Gérard Biau, Rémi Munos +2

Reasoning & Chain-of-Thought RLHF & Preference Learning

Apr 21, 2026

DeepMindApr 21, 2026·also Meta AI, CERMICS École des Ponts ParisTech, INRIA, Institut universitaire de France +4

Planning in entropy-regularized Markov decision processes and games

Entropy regularization makes planning provably easy: SmoothCruiser achieves polynomial sample complexity in MDPs where standard methods fail.

Jean-Bastien Grill, Omar Darwiche Domingues, Pierre Ménard +2

Training Efficiency & Optimization World Models & Planning

Apr 20, 2026

Apr 20, 2026·also Meta AI, Microsoft Research, Adobe Research, CERMICS École des Ponts ParisTech +5

Spectral bandits for smooth graph functions

Learning user preferences for thousands of items can be achieved with just a handful of evaluations, thanks to a novel approach that leverages effective dimension in graph-based bandit problems.

Michal Valko, Rémi Munos, Branislav Kveton +1

Recommendation & Information Retrieval

Apr 16, 2026

Apr 16, 2026·also Meta AI, CERMICS École des Ponts ParisTech, Institut universitaire de France, Paris-Saclay +2

Blazing the trails before beating the path: Sample-efficient Monte-Carlo planning

TrailBlazer offers a computationally efficient Monte-Carlo planning algorithm that drastically reduces sample complexity by focusing exploration on near-optimal state trajectories within an MDP.

Jean-Bastien Grill, Michal Valko, R. Munos +119

Robotics & Embodied AI Training Efficiency & Optimization World Models & Planning

Search

Rémi Munos

Research focus

Frequent co-authors

Papers (4)