Stjepan Picek

Radboud University

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Red-Teaming & Adversarial Robustness (4)Code Generation & Program Synthesis (1)Data Curation & Synthetic Data (1)Constitutional AI & AI Ethics (1)

Frequent co-authors

Marina Krček (2)Stefanos Koffas (2)Xiaoyun Xu (1)Lichao Wu (1)

Papers (6)

Jun 15, 2026

Jun 15, 2026·also Bristol

SPARK: Security Knowledge Priming and Representation-Guided Knowledge Activation for LLM-based Secure Code Generation

Activating latent security knowledge in LLMs can significantly reduce exploitable vulnerabilities in generated code without the overhead of retraining.

Xiaoyun Xu, Lichao Wu, Jona te Lintelo +2

Code Generation & Program Synthesis Data Curation & Synthetic Data

May 6, 2026

May 6, 2026·also Cochin University of Science and Technology, University of Pavia

You Snooze, You Lose: Automatic Safety Alignment Restoration through Neural Weight Translation

Forget retraining: NeWTral instantly restores safety to your LLM after adding a risky LoRA, slashing attack success rates from 70% to 13% without sacrificing expertise.

Marco Arazzi, Vignesh Kumar Kembu, Antonino Nocera +2

Constitutional AI & AI Ethics Open-Source Models & Weights Red-Teaming & Adversarial Robustness

Apr 30, 2026

Apr 30, 2026·also Bristol, Leiden

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Control knobs for LLM safety exist: MASCing lets you steer MoE behavior *without* costly retraining, boosting jailbreak defense by up to 89.2% and adult content generation control by up to 93.0%.

Jona te Lintelo, Lichao Wu, Marina Krček +5

Architecture Design (Transformers, SSMs, MoE)Red-Teaming & Adversarial Robustness

Apr 19, 2026

University of ParisApr 19, 2026·also Radboud, Twente, University of Bergen, University of Zagreb

Monotone but Exciting: On Evolving Monotone Boolean Functions with High Nonlinearity

Evolutionary algorithms can evolve monotone Boolean functions that achieve nonlinearities surpassing traditional majority functions, challenging existing limits in this domain.

Claude Carlet, Marko Čupić, Marko Ðurasevic +3

Mar 31, 2026

GensynMar 31, 2026·also Radboud, SecureML, TU Delft, University of Neuchatel

Backdoor Attacks on Decentralised Post-Training

Even a single compromised pipeline stage can inject backdoors that drastically misalign LLMs, bypassing standard safety alignment.

Oğuzhan Ersoy, Nikolay Blagoev, Stefanos Koffas +2

Distributed Systems & Hardware Natural Language Processing Red-Teaming & Adversarial Robustness

Mar 10, 2026

University of BergenMar 10, 2026·also Radboud, SecureML, TU Delft

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Backdoor defenses focused on removing training triggers are fundamentally flawed, as alternative, perceptually distinct triggers can reliably activate the same backdoor via a latent feature-space direction.

Gorka Abad, Ermes Franch, Stefanos Koffas +1

Interpretability & Mechanistic Interp Red-Teaming & Adversarial Robustness

Search

Stjepan Picek

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (6)