Kaibo Wang

Huawei Foundation Model Department, The Hong Kong University of Science and Technology

Papers on Lattice

Total citations

Topics

Research focus

Natural Language Processing (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Jianyuan Zhong (1)Zijin Feng (1)Qiang Xu (1)

Papers (1)

Mar 6, 2026

Mar 6, 2026·also CUHK, HKUST, Joy Future Academy

Stabilizing Reinforcement Learning for Diffusion Language Models

StableDRL tames the wild instability of applying reinforcement learning to diffusion language models, enabling more reliable post-training optimization.

Jianyuan Zhong, Kaibo Wang, Zijin Feng +1

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

Search

Kaibo Wang

Research focus

Frequent co-authors

Papers (1)