Hadas Orgad

Kempner Institute at Harvard University

Papers on Lattice

Total citations

Topics

Research focus

Red-Teaming & Adversarial Robustness (3)Constitutional AI & AI Ethics (2)Eval Frameworks & Benchmarks (1)Natural Language Processing (1)Inference & Quantization (1)

Frequent co-authors

Joe Stacey (1)Kentaro Inui (1)Benjamin Heinzerling (1)Nafise Sadat Moosavi (1)

Papers (3)

Apr 13, 2026

Apr 13, 2026·also Harvard, RIKEN, Tohoku

Hidden Failures in Robustness: Why Supervised Uncertainty Quantification Needs Better Evaluation

Uncertainty estimates from LLMs can crumble under distribution shift, but the right probe design – think middle layers and token aggregation – can make them surprisingly resilient.

Joe Stacey, Hadas Orgad, Kentaro Inui +2

Eval Frameworks & Benchmarks Natural Language Processing Red-Teaming & Adversarial Robustness

Apr 10, 2026

Apr 10, 2026·also Cohere, Princeton

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

LLMs' harmful outputs stem from a surprisingly compact and unified set of weights, suggesting a fundamental, addressable structure underlying even emergent misalignment.

Hadas Orgad, Boyi Wei, Kaden Zheng +2

Constitutional AI & AI Ethics Inference & Quantization Red-Teaming & Adversarial Robustness

Feb 23, 2026

Feb 23, 2026·also MIT CSAIL, Hamburg, Harvard, HKBK College of Engineering +4

Agents of Chaos

Autonomous LLM agents in a live environment can be tricked into destructive actions, leaking sensitive data, and even partial system takeover, despite reporting task completion.

Natalie Shapira, Natalie Shapira, Chris Wendler +65

Constitutional AI & AI Ethics Red-Teaming & Adversarial Robustness Tool Use & Agents

Search

Hadas Orgad

Research focus

Frequent co-authors

Papers (3)