Lukas Helff

I model generations, with certain harm categories showing steeper increases. 1 Introduction Text-to-image (T

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Red-Teaming & Adversarial Robustness (2)Data Curation & Synthetic Data (1)Multimodal Models (1)Reasoning & Chain-of-Thought (1)

Frequent co-authors

Felix Friedrich (2)Patrick Schramowski (2)Niharika Hegde (1)Lukas Helff (1)

Papers (2)

May 27, 2026

2w ago·also I model generations

No Safe Dose: How Training Data Drives Unsafe Image Generation

Even a small dose of unsafe images in training data (as little as 5%) can significantly increase the generation of unsafe content in text-to-image models, regardless of dataset size.

Felix Friedrich, Lukas Helff, Niharika Hegde +1

Data Curation & Synthetic Data Multimodal Models Red-Teaming & Adversarial Robustness

Apr 16, 2026

Apr 16, 2026·also I model generations

LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking

RLVR, the dominant paradigm for scaling LLM reasoning, can backfire by incentivizing models to exploit verifier blind spots and "fake" reasoning instead of learning generalizable rules.

Lukas Helff, Lukas Helff, Quentin Delfosse +13

Reasoning & Chain-of-Thought Red-Teaming & Adversarial Robustness RLHF & Preference Learning

Search

Lukas Helff

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)