Pengyu Cheng

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Training Efficiency & Optimization (2)Architecture Design (Transformers, SSMs, MoE) (1)Robotics & Embodied AI (1)RLHF & Preference Learning (1)

Frequent co-authors

Yuhao Du (2)Zhuo Li (2)Yuejiao Xie (2)Xiang Wan (2)

Papers (3)

2026

Yuhao Du +62026

RLHF in an SFT Way: From Optimal Solution to Reward-Weighted Alignment

A novel simplification of RLHF is proposed from the perspective of variational inference, called V ariational A lignment with R e-weighting ( VAR), which transforms the alignment objective into an offline reward-driven re-weighted supervised fine-tuning (SFT) form.

Yuhao Du, Zhuo Li, Pengyu Cheng +4

Mar 5, 2026

Youqiang Gui +71w ago

SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

SeedPolicy overcomes the long-horizon limitations of Diffusion Policies in robot manipulation by compressing temporal information with a novel gated attention mechanism, achieving state-of-the-art imitation learning performance with significantly fewer parameters than vision-language-action models.

Youqiang Gui, Yuxuan Zhou, Shen Cheng +5

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Training Efficiency & Optimization

Feb 16, 2025

Yuhao Du +6Feb 16, 2025

Simplify RLHF as Reward-Weighted SFT: A Variational Method

Ditch the RLHF complexity: a variational re-weighting approach turns alignment into stable, reward-driven SFT, rivaling existing methods.

Yuhao Du, Zhuo Li, Pengyu Cheng +49

RLHF & Preference Learning Training Efficiency & Optimization

Search

Pengyu Cheng

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)