Binbin Zheng

Baidu Inc, University of Science and Technology of China

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (2)Training Efficiency & Optimization (2)Scalable Oversight & Alignment Theory (1)Tool Use & Agents (1)

Frequent co-authors

Xiaoliang Fu (2)Zijun Xie (1)Enlei Gong (1)Jihua Liu (1)

Papers (3)

Jun 30, 2026

3w ago·also Baidu, USTC

ECHO: Prune to act, trace to learn with selective turn memory in agentic RL

ECHO enables RL agents to retain and leverage fine-grained historical evidence, achieving a 43.4% accuracy on complex tasks while using less context than prior methods.

Zijun Xie, Binbin Zheng, Enlei Gong +7

Scalable Oversight & Alignment Theory Tool Use & Agents

Apr 12, 2026

Apr 12, 2026·also Fudan, Meituan, NJU, USTC

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

Stop uniformly distilling your LLMs: SCOPE selectively amplifies teacher guidance on incorrect trajectories and reinforces student uncertainty on correct ones, leading to significant gains in reasoning performance.

Binbin Zheng, Xing Ma, Yiheng Liang +6

Inference & Quantization RLHF & Preference Learning Training Efficiency & Optimization

Feb 19, 2026

Feb 19, 2026·also Baidu, Meituan, PKU, USTC

MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

LLM reasoning gets a serious upgrade with MASPO, a new RLVR method that smartly balances gradient use, probability mass, and signal reliability for faster, more robust learning.

Xiaoliang Fu, Jiaye Lin, Yangyi Fang +4

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Search

Binbin Zheng

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)