Lattice AI Research

Research focus

Tool Use & Agents (2)Eval Frameworks & Benchmarks (1)Red-Teaming & Adversarial Robustness (1)Code Generation & Program Synthesis (1)Data Curation & Synthetic Data (1)

Frequent co-authors

Ali Al-Kaswan (1)Maksim Plotnikov (1)Maxim Hájek (1)Maxim H'ajek (1)

Papers (2)

Apr 21, 2026

Do Agents Dream of Root Shells? Partial-Credit Evaluation of LLM Agents in Capture The Flag Challenges

LLM agents are surprisingly inept at Capture The Flag challenges, with even the best models only completing 35% of checkpoints, revealing a significant gap in their ability to perform realistic offensive security tasks.

Ali Al-Kaswan, Maksim Plotnikov, Maxim Hájek +6

Eval Frameworks & Benchmarks Red-Teaming & Adversarial Robustness Tool Use & Agents

Apr 1, 2026

Apr 1, 2026·also GitHub, UC Davis

Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time

Agent-generated code is more likely to be reworked or removed entirely, suggesting current AI coding tools may increase code churn despite boosting initial contribution rates.

R. Popescu, Razvan Mihai Popescu, David Gros +4

Code Generation & Program Synthesis Data Curation & Synthetic Data Open-Source Models & Weights+1

Search

Maliheh Izadi

Research focus

Frequent co-authors

Papers (2)