Zhenquan Zhang

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Chengxuan Lu (1)Shukuan Wang (1)Qunzhi Lin (1)Baigui Sun (1)

Papers (1)

Mar 4, 2026

Tsinghua AI1w ago

GIPO: Gaussian Importance Sampling Policy Optimization

Ditch hard clipping: GIPO's Gaussian-weighted importance sampling offers a smoother, more stable RL policy optimization, especially when dealing with stale or limited data.

Chengxuan Lu, Zhenquan Zhang, Shukuan Wang +2

Multimodal Models RLHF & Preference Learning Training Efficiency & Optimization

Search

Zhenquan Zhang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)