Dezhi Peng

Papers on Lattice

Total citations

Topics

h-index

Research focus

Multimodal Models (1)RLHF & Preference Learning (1)Robotics & Embodied AI (1)

Frequent co-authors

Ya-Qi Yu (1)Fang Hong (1)Xiangyan Qu (1)Gaojie Wu (1)

Papers (1)

May 28, 2026

Ya-Qi Yu +15May 28, 2026·also Edinburgh, Imperial, MBZUAI, NTU +1

Reinforcement Learning with Robust Rubric Rewards

Forget hand-crafted reward functions: $\text{RLR}^3$ leverages rubrics and LLMs to provide fine-grained, multi-criteria supervision, outperforming standard RLVR in vision-language tasks.

Ya-Qi Yu, Fang Hong, Xiangyan Qu +13

Multimodal Models RLHF & Preference Learning Robotics & Embodied AI

Search

Dezhi Peng

Research focus

Frequent co-authors

Papers (1)