Pranav Vajreshwari

Microsoft Research

Papers on Lattice

Total citations

Topics

Research focus

RLHF & Preference Learning (1)Tool Use & Agents (1)Training Efficiency & Optimization (1)

Frequent co-authors

Karan Gupta (1)Yash Pandya (1)Raghav Magazine (1)Akshay Nambi (1)

Papers (1)

Mar 5, 2026

Microsoft ResearchMar 5, 2026

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

A 4B parameter SLM can now rival frontier agent performance in complex tool-use environments, thanks to a novel reinforcement finetuning framework that teaches it how to strategically acquire context and execute actions.

Karan Gupta, Pranav Vajreshwari, Yash Pandya +3

RLHF & Preference Learning Tool Use & Agents Training Efficiency & Optimization

Search

Pranav Vajreshwari

Research focus

Frequent co-authors

Papers (1)