Lattice AI Research

Research focus

RLHF & Preference Learning (2)Training Efficiency & Optimization (2)Natural Language Processing (1)

Frequent co-authors

Enxi Wang (1)Weixin Zhang (1)Zhiyuan Zeng (1)Yikai Zhang (1)

Papers (2)

Apr 13, 2026

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

LLMs can learn to avoid repeating mistakes by remembering and penalizing frequently recurring error patterns in past rollouts.

Enxi Wang, Yufei Gao, Weixin Zhang +3

Natural Language Processing RLHF & Preference Learning Training Efficiency & Optimization

Mar 5, 2026

Mar 5, 2026·also Fudan

BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

PPO's fixed clipping hurts exploration by squashing high-reward, low-probability actions, but BandPO fixes this with probability-aware bounds that boost performance.

Yuan Li, Yuan Li, Boyu Wang +8

RLHF & Preference Learning Training Efficiency & Optimization

Search

Yufei Gao

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)