Penghui Qi

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (2)Multimodal Models (1)

Frequent co-authors

Xiangxin Zhou (2)Liefeng Bo (2)Tianyu Pang (2)Bowen Ping (1)

Papers (2)

Jun 9, 2026

NUS2d ago·also Tencent AI, XJTU

Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

Flow-DPPO outperforms traditional PPO methods by achieving higher rewards and greater training stability through a novel divergence proximal constraint.

Bowen Ping, Xiangxin Zhou, Penghui Qi +3

Multimodal Models RLHF & Preference Learning

Jun 8, 2026

Jiarui Yao +53d ago

Rethinking the Divergence Regularization in LLM RL

Smooth gradient adjustments in DRPO prevent harmful policy shifts, leading to more stable and efficient LLM training.

Jiarui Yao, Xiangxin Zhou, Penghui Qi +3

RLHF & Preference Learning

Search

Penghui Qi

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)