Shangtong Zhang

Research focus

Robotics & Embodied AI (2)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)

Frequent co-authors

Alper Kamil Bozkurt (1)Xiaoan Xu (1)Miroslav Pajic (1)Yuichi Motai (1)

Papers (2)

May 6, 2026

Alper Kamil Bozkurt +4May 6, 2026

Adaptive Policy Selection and Fine-Tuning under Interaction Budgets for Offline-to-Online Reinforcement Learning

Stop committing to a single policy in offline-to-online RL: adaptively select and fine-tune policies based on predicted performance to maximize returns under interaction budgets.

Alper Kamil Bozkurt, Xiaoan Xu, Shangtong Zhang +2

RLHF & Preference Learning Robotics & Embodied AI

Feb 18, 2026

Ethan Blaser +2Feb 18, 2026

Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes

Differential TD learning, a practical algorithm for average reward RL, now has stronger theoretical footing, converging under more realistic conditions.

Ethan Blaser, Jiuqi Wang, Shangtong Zhang

Robotics & Embodied AI Training Efficiency & Optimization

Search

Shangtong Zhang

Research focus

Frequent co-authors

Papers (2)