Thibaud Rahier

Criteo AI Lab

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Scalable Oversight & Alignment Theory (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Khaled Eldowa (1)Augustin Cablant (1)Panayotis Mertikopoulos (1)Pierre Gaillard (1)

Papers (2)

Jun 22, 2026

3w ago·also Criteo AI Lab, FR Univ. Grenoble Alpes, Grenoble INP

Traditional one-point feedback in bandit problems misses the mark, but new algorithms can exploit action similarities to achieve significantly lower regret.

Khaled Eldowa, Thibaud Rahier, Augustin Cablant +2

Scalable Oversight & Alignment Theory

Mar 30, 2026

Aurelien Bibaut +3Mar 30, 2026·also Criteo AI Lab

Functional Natural Policy Gradients

Unlock $\sqrt{N}$ regret in offline policy learning, even with complex policy classes, by trading off policy and environment complexity.

Aurelien Bibaut, Houssam Zenati, Thibaud Rahier +1

RLHF & Preference Learning Training Efficiency & Optimization

Search

Thibaud Rahier

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)