Jiayuan Mao

Papers on Lattice

Total citations

Topics

h-index

Research focus

RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Bingda Tang (1)Yuhui Zhang (1)Xiaohan Wang (1)Ludwig Schmidt (1)

Papers (1)

Apr 25, 2026

Stanford HAIApr 25, 2026

V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think

ELBO-based reinforcement learning, previously dismissed for visual generation, can actually outperform MDP-based methods for aligning denoising generative models with human preferences.

Bingda Tang, Yuhui Zhang, Xiaohan Wang +4

RLHF & Preference Learning Training Efficiency & Optimization

Search

Jiayuan Mao

Research focus

Frequent co-authors

Papers (1)