Ahmet Üstün

Cohere Labs

Papers on Lattice

Total citations

Topics

Research focus

Code Generation & Program Synthesis (1)Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)

Frequent co-authors

Saurabh Dash (1)Pierre Clavier (1)John Dang (1)Matthias Gall'e (1)

Papers (1)

May 27, 2026

Soft-SVeRL: Self-Verified Reinforcement Learning with Soft Rewards

Decomposing complex tasks into verifiable checklists unlocks more effective reinforcement learning, but only if you can avoid the pitfalls of reward hacking and verifier bias.

Saurabh Dash, Pierre Clavier, John Dang +4

Code Generation & Program Synthesis Reasoning & Chain-of-Thought RLHF & Preference Learning

Search

Ahmet Üstün

Research focus

Frequent co-authors

Papers (1)