Xiaoxuan Ou

OpenAI

Papers on Lattice

Total citations

Topics

h-index

Research focus

Eval Frameworks & Benchmarks (1)Tool Use & Agents (1)

Frequent co-authors

Divyanshu Saxena (1)Rishikesh Maurya (1)Gagan Somashekar (1)Shachee Mishra Gupta (1)

Papers (1)

Nov 13, 2025

Nov 13, 2025·also OpenAI

Continuous Benchmark Generation for Evaluating Enterprise-scale LLM Agents

Forget hand-crafted benchmarks: this paper shows how LLMs can continuously generate relevant evaluation datasets for enterprise AI agents from just a few semi-structured documents.

Divyanshu Saxena, Rishikesh Maurya, Xiaoxuan Ou +7

Eval Frameworks & Benchmarks Tool Use & Agents

Search

Xiaoxuan Ou

Research focus

Frequent co-authors

Papers (1)