Sabrina Sadiekh

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Red-Teaming & Adversarial Robustness (2)Eval Frameworks & Benchmarks (1)Natural Language Processing (1)Interpretability & Mechanistic Interp (1)

Frequent co-authors

Shirin Alanova (1)Bogdan Minko (1)Evgeniy Kokuykin (1)Ahson Saiyed (1)

Papers (2)

Apr 28, 2026

3w ago

Cross-Lingual Jailbreak Detection via Semantic Codebooks

Jailbreak defenses relying on semantic similarity crumble when faced with diverse, real-world multilingual attacks, even if they ace the textbook examples.

Shirin Alanova, Bogdan Minko, Sabrina Sadiekh +1

Eval Frameworks & Benchmarks Natural Language Processing Red-Teaming & Adversarial Robustness

Apr 20, 2026

Ahson Saiyed +2Apr 20, 2026

Towards Understanding the Robustness of Sparse Autoencoders

Integrating Sparse Autoencoders into transformer models can slash jailbreak success rates by up to 5x, reshaping our understanding of model robustness against adversarial attacks.

Ahson Saiyed, Sabrina Sadiekh, Chirag Agarwal

Interpretability & Mechanistic Interp Red-Teaming & Adversarial Robustness

Search

Sabrina Sadiekh

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)