Ru Peng

Tencent

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (2)Tool Use & Agents (1)Reasoning & Chain-of-Thought (1)

Frequent co-authors

Heming Zou (1)Yun Qu (1)Yuhang Jiang (1)Lizhou Cai (1)

Papers (2)

Jun 9, 2026

Tsinghua AIJun 9, 2026·also Anhui University, Tencent AI, Trento

TRACE: A Unified Rollout Budget Allocation Framework for Efficient Agentic Reinforcement Learning

TRACE redefines rollout budget allocation by treating each turn in a multi-turn interaction as a unique node, leading to improved reward contrast and policy performance.

Heming Zou, Yun Qu, Yuhang Jiang +6

RLHF & Preference Learning Tool Use & Agents

Jun 7, 2026

Jun 7, 2026·also CUHK, Eastern Institute of Technology, Tencent AI

Momentum for Reasoning: Dense Intrinsic Signals in Policy Optimization

ISPO reduces critical reasoning failures in RLVR by transforming reward structures, leading to superior performance on complex reasoning tasks.

Liyao Li, Xuhang Zhu, Xiaomeng Hu +4

Reasoning & Chain-of-Thought RLHF & Preference Learning

Search

Ru Peng

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)