Eugenia Kim

Microsoft AI Red Team

Microsoft Research

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Red-Teaming & Adversarial Robustness (1)RLHF & Preference Learning (1)

Frequent co-authors

Blake Bullwinkel (1)Amanda Minnich (1)Mark Russinovich (1)

Papers (1)

Jun 8, 2026

Microsoft Research1d ago

Learning to Attack and Defend: Adaptive Red Teaming of Language Models via GRPO

AdvGRPO enables robust attacker-defender co-training that significantly improves defender performance on safety benchmarks while generating effective attacks.

Blake Bullwinkel, Eugenia Kim, Amanda Minnich +1

Red-Teaming & Adversarial Robustness RLHF & Preference Learning

Search

Eugenia Kim

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)