Philip Torr

SeClaw reveals that existing benchmarks fall short in capturing the complexities of agent behavior, enabling a more nuanced evaluation of security risks in autonomous systems.

Hao Cheng, Changtao Miao, Tianle Song +20

Eval Frameworks & Benchmarks Red-Teaming & Adversarial Robustness Tool Use & Agents

May 25, 2026

2w ago·also Stanford HAI, CUHK

D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing

Diffusion LLMs betray their safety violations through "hesitation" in their intermediate generation steps, offering a new signal for lightweight, dynamic safety monitoring.

Aoxi Liu, Yupeng Chen, James Oldfield +5

Constitutional AI & AI Ethics Eval Frameworks & Benchmarks Red-Teaming & Adversarial Robustness

May 21, 2026

3w ago·also AI2, Stanford HAI, Sakana AI

Forecasting Scientific Progress with Artificial Intelligence

Despite their increasing role in scientific discovery, today's AI models are surprisingly bad at predicting which scientific breakthroughs will actually happen and when.

Sean Wu, Yupeng Chen, Jonathan Bragg +5

Eval Frameworks & Benchmarks Natural Language Processing Scientific Discovery & Drug Design

Search

Philip Torr

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)