Leshem Choshen

IBM Research, Massachusetts Institute of Technology ∗First authors ⋄Top contributors

MIT CSAIL

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Eval Frameworks & Benchmarks (2)Training Efficiency & Optimization (1)

Frequent co-authors

Avijit Ghosh (1)Anka Reuel (1)Jenny Chim (1)Wm. Matthew Kennedy (1)

Papers (2)

Jun 8, 2026

Stanford HAI1w ago·also ETH, Meta AI, Mila, MIT CSAIL +29

Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting

Systematic gaps in AI evaluation reporting are exposed, revealing inconsistencies that hinder reliable comparisons across thousands of models and benchmarks.

Avijit Ghosh, Anka Reuel, Jenny Chim +43

Eval Frameworks & Benchmarks

Apr 14, 2026

AI2Apr 14, 2026·also MIT CSAIL, Faculty of Data and Decision Science, HUJI, IBM Research +1

Growing Pains: Extensible and Efficient LLM Benchmarking Via Fixed Parameter Calibration

Stop re-running full benchmarks: Calibrate new LLM datasets against existing suites with just 100 "anchor" questions and still get highly accurate performance predictions.

Asaf Yehudai, Yotam Perlitz, Leshem Choshen

Eval Frameworks & Benchmarks Training Efficiency & Optimization

Search

Leshem Choshen

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)