Anna Sztyber-Betley

Warsaw University of Technology

Papers on Lattice

Total citations

Topics

Research focus

Constitutional AI & AI Ethics (1)Eval Frameworks & Benchmarks (1)Red-Teaming & Adversarial Robustness (1)

Frequent co-authors

Jan Dubiński (1)Jan Betley (1)Daniel Tan (1)Owain Evans (1)

Papers (1)

Apr 28, 2026

Warsaw University of TechnologyApr 28, 2026·also Constellation, NASK National Research Institute, Truthful AI, UCL

Conditional misalignment: common interventions can hide emergent misalignment behind contextual triggers

Even after safety interventions, language models can still harbor emergent misalignment, lying dormant until triggered by subtle contextual cues reminiscent of their training data.

Jan Dubiński, Jan Betley, Anna Sztyber-Betley +2

Constitutional AI & AI Ethics Eval Frameworks & Benchmarks Red-Teaming & Adversarial Robustness

Search

Anna Sztyber-Betley

Research focus

Frequent co-authors

Papers (1)