Tsinghua AIDepartment of Computer ScienceGeorgia TechKU LeuvenPKUUCSBUCSCUCSDVirtue AIWashUWaterlooJun 3, 2026arXiv:2606.05405

Agents'Last Exam

Website GitHub, HuggingFace Leaderboard, Yiyou Sun, Xinyan Han, Weichen Zhang, Yuan Pang, Tianyu Wang, Yuhan Cao, Yixiao Huang, C. Duroiu, Haoyun Zhang, Jeffrey Lin, Weishun Zhang, Tyler Zeng, Yingdi Yan, Boyin Liu, Han Wen, Mingyang Xu, Zimeng Chen, Weiyan Shi, Amanda D’Souza, V. Chen, Dawn Song, P. Bryant, Carl Boettiger, Yamini Rangan, B. Rothenberg, Kyle Steinfeld, Arvind Rao, Tapio Schneider, Georgios N. Yannakakis, Laure Zanna, K. Ozbay, Ida Sim, Tarek I. Zohdi, G. Karniadakis, Jack Gallant, T. Head-Gordon, Yushan Li, W. Deng, Tao Sun, Huiqi Wang, Zhun Wang, Justin Xu, Chris Liu, Yafei Cheng, Rong Hu, Aras Bacho, Shengcao Cao, Zengyi Qin, Yixiong Chen, Heng Fan, Haonan Liu, Lin Zeng, Shashank Muralidhar Bharadwaj, Litian Gong, Ying Yang, Maojia Song, Ruheng Wang, Zongzheng Zhang, Honglin Bao, Shuo Lu, Jianhong Tu, Zhonghua Wang, Zhengyou Zhang, Zijiao Chen, Yanqiong Jiang, Zhendong Li, Bohan Lyu, Changling Ma, Peiran Xu, Benran Zhang, Shangding Gu, Haoyu Hua, Haoyang Li, Wanzhe Liao, Chengzhi Liu, Jun-wen Peng, Haoran Sun, Zechen Xu, Bocheng Chen, Jiayi Cheng, Yinshan Jiang, Keying Kuang, Yuan Li, you pan, Z. Rao, A. Schubert, Yifan Shen, Vincent Siu, Xiatao Sun, Kangqi Zhang, Xiao-Ping Zhang, Yuchen Zhu, I. Chandok, Lei Ding, Jingxuan Fan, Andy Glover, Jiaming Hu, Yiran Hu, Wenbo Huang, Zixin Jiang, Haoran Jin, Lukas Kim, Ming Liu, Yang Liu, Ali Rafiei, Xu Shen, Kunyang Sun, Sophia Sun, Ting Sun, Eric Wang, Yixin Wang, Hanwen Xing, Sihan Xu, Yuzhen Xu, Zhongxing Xu, Zhiling Yan, Boqin Yuan, Ruiqi Zhang, Yifan Zhang, Zibo Zhao, Santanu Liana, Bosu Antu, Haoyue Bai, Carlo Bosio, Joe Cavanagh, P. Cavazos-Rehg, Tianxing Chen, Xue-wen Chen, Yipu Chen, Chenyu Zhu, Chen Dai, S. Castro, Yu Deng, Kaustubh D. Dhole, Jiayuan Ding, Chenchen Du, Zhehang Du, Hao Fan, Runhong Fan, Hengyu Fu, Shi Gu, Yifan Gu, Charles Guo, Baihe Huang, Baixiang Huang, Rimika Jaiswal, Zhihan Jiang, Ran Jin, E. Kasson, Xin Lan, Joseph Lee, Deren Lei, Chenyun Li, Daofeng Li, Haitao Li, Hongwei Li, Jingyan Li, Xiao Li, Yi Li, Yinsheng Li, Yuangang Li, Zhixu Li, Wenyu Liang, Long Liao, K. Lin, Andy T. Liu, Che Liu, Jiaming Liu, Kai Liu, Xuanming Liu, Pan Lu, Wenbo Lv, Yichen Lv, Qiuyang Mang, Kyle Montgomery, Yuzhou Nie, Ruoxi Ning, Jorin Overwiening, Xu Pan, Core Layna Paraboschi, Francis J. H. Park, Justin Purnomo, S. Rajwal, S. Rankin, Bixuan Ren, Yiren Rong, HaoYang Shang, V. Shaw, F. Shen, Jiawei Shen, Minqi Shi, Qiuzhong Shi, Huaxiu Yao, Tianneng Shi, J. So, Vladislav Susoy, Hannah Szlyk, Haochen Wang, Jialu Wang, Wei Wang, Xinyu Wang, Zehao Wang, D. Wong, Angela S. Wu, Dehao Wu, Mengyuan Fangyu Wu, ·. Wu, Yu Wu, Yuchen Wu, Yuhao Wu, Qingpo Wuwu, Wei Xiao, Yong Xiong, Fan Xu, Ruiling Xu, Ming Yan, Benjamin C. Yang, Jirong Yang, Sen Yang, Xiaoli Yang, Yushi Yang, Haoran Ye, Xiaohui Yu, Zhen Yu, Chenlong Zhang, Chi Zhang, Hanning Zhang, Han Zhang, Junge Zhang, Kunpeng Zhang, Song Zhang, Wenjin Zhang, Wenshuo Zhang, Ying Zhang, Yizhi Zhang, Brian Zhao, Qijian Zhao, Yimin Zhao, Yu Zheng, Liwei Zhou, Tianyu Zhou, Sichen Zhu, Siqi Zhu, Yanmin Zhu, Yishu Zhu, Jierui Zuo, Chonghao Cai, Helena Casademunt, Wen-juan Chen, B. Cheng, Na Deng, Rao Fu, Tianfu Fu, Yifan Han, Ren He, Zhenyu He, Qiao Jin, Lang Lang, Yuetai Li, Sylvia Liu, Lu Lu, Qinglin Lu, Subhabrata Mukherjee, Yu Ouyang, Yin Ren, Dawei Shi, Hao Wu, Zhiyu Wu, Han-Bo Yao, Zhuoran Yi, J. Yu, Rhea Zhan, Hang Zhou, B. Zhu, Junfan Zhu, Alan L. Yuille, R. Poldrack, Jiachen Li, Zhenglu Li, Molei Tao, Jing Huang, Wenqi Shi, C. Spanos, Lichao Sun, Chenguang Wang, Orson Xu, Zhen Dong, Héctor F. Gómez, Aylin Caliskan, Ali Emami, Haimin Hu, Zhi Li, Lihui Liu, M. Niu, Yi Shao, Jianxin Sun, Mikko Tolonen, Tingyin Wang, Sanjiv Das, Yan Gao, Wenbo Guo, Erika J. Schneider, Zhiyong Lu, Mark Mueller, Radha Poovendran, C. H, Indust. Sys

AI Summary

This paper introduces Agents'Last Exam (ALE), a benchmark specifically designed to evaluate AI agents on long-horizon, economically valuable tasks, addressing the gap between AI performance on standard benchmarks and real-world deployment. Developed with input from over 250 industry experts, ALE encompasses a comprehensive task taxonomy that spans 1,000+ tasks across 13 industry clusters, focusing on non-physical industries. Current evaluations reveal that the hardest tier of tasks remains underexplored, with an average full pass rate of only 2.6%, highlighting the need for more rigorous assessment frameworks in AI development.

Key Contribution

The hardest AI tasks remain largely unsolved, with current models achieving only a 2.6% success rate on economically valuable workflows.

Abstract

Recent AI systems have achieved strong results on a wide range of benchmarks, yet these gains have not translated into economically meaningful deployment across many professional domains. We argue that this gap is largely an evaluation problem: widely used benchmarks lack sustained performance measurement on real and economically valuable workflows. This paper introduces Agents'Last Exam (ALE), a benchmark designed to evaluate AI agents on long-horizon, economically valuable, real-world tasks with verifiable outcomes. Developed in collaboration with 250+ industry experts, ALE covers non-physical industries defined with reference to O*NET / SOC 2018 (the U.S. federal occupational taxonomy). It is organized around a task taxonomy with 55 subfields grouped into 13 industry clusters covering 1K+ tasks. Current results show that the hardest tier remains far from saturated: across mainstream harness and backbone configurations, the average full pass rate is 2.6%. ALE is designed as a living benchmark: its task pool grows continuously as new workflows and industries are onboarded. More broadly, ALE is intended not merely as another leaderboard, but as an instrument for closing the gap between benchmark success and GDP-relevant impact.

Eval Frameworks & Benchmarks Tool Use & Agents

Citation Metrics

Citations0

Influential citations0

References45

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

Agents'Last Exam

Related Papers