Bowen Ping

Flow-DPPO outperforms traditional PPO methods by achieving higher rewards and greater training stability through a novel divergence proximal constraint.

Bowen Ping, Minnan Luo, Liefeng Bo +1

Multimodal Models RLHF & Preference Learning

Jun 4, 2026

Qize Yu +12Jun 4, 2026

AffordanceVLA: A Vision-Language-Action Model Empowering Action Generation through Affordance-Aware Understanding

AffordanceVLA transforms robotic manipulation by using structured affordance cues to create precise perception-action mappings, outperforming traditional models.

Qize Yu, Jiadi You, Yuran Wang +10

Multimodal Models Robotics & Embodied AI

Apr 16, 2026

Apr 16, 2026·also PKU, SJTU

LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

Saliency-guided sparse updates, focusing on high-magnitude activations in query and key vectors, unlock significant performance gains in long-context RL, outperforming uniform update strategies.

Bowen Ping, Zijun Chen, Tingfeng Hui +3

Architecture Design (Transformers, SSMs, MoE)RLHF & Preference Learning Training Efficiency & Optimization

Search

Bowen Ping

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)