Jan Dubiński

Warsaw University of Technology, NASK National Research Institute, Constellation

Papers on Lattice

Total citations

Topics

Research focus

Constitutional AI & AI Ethics (2)Red-Teaming & Adversarial Robustness (2)Eval Frameworks & Benchmarks (1)Multimodal Models (1)

Frequent co-authors

Jan Betley (1)Anna Sztyber-Betley (1)Daniel Tan (1)Owain Evans (1)

Papers (2)

Apr 28, 2026

Warsaw University of TechnologyApr 28, 2026·also Constellation, NASK National Research Institute, Truthful AI, UCL

Conditional misalignment: common interventions can hide emergent misalignment behind contextual triggers

Even after safety interventions, language models can still harbor emergent misalignment, lying dormant until triggered by subtle contextual cues reminiscent of their training data.

Jan Dubiński, Jan Betley, Anna Sztyber-Betley +2

Constitutional AI & AI Ethics Eval Frameworks & Benchmarks Red-Teaming & Adversarial Robustness

Mar 3, 2026

Maciej Chrabkaszcz +8Mar 3, 2026·also Constellation, NASK National Research Institute, Warsaw University of Technology

Conditioned Activation Transport for T2I Safety Steering

Steer clear of unsafe T2I generations without sacrificing image quality using a novel activation transport method that knows when (and where) to intervene.

Maciej Chrabkaszcz, Maciej Chrabąszcz, Aleksander Szymczyk +6

Constitutional AI & AI Ethics Multimodal Models Red-Teaming & Adversarial Robustness

Search

Jan Dubiński

Research focus

Frequent co-authors

Papers (2)