Zhiwei Wu

Papers on Lattice

Total citations

Topics

h-index

Research focus

Eval Frameworks & Benchmarks (1)Red-Teaming & Adversarial Robustness (1)RLHF & Preference Learning (1)

Frequent co-authors

Ruomeng Ding (1)Yifei Pang (1)He Sun (1)Yizhong Wang (1)

Papers (1)

Feb 14, 2026

Feb 14, 2026·also UT Austin, Yale

Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

LLM judges are surprisingly susceptible to subtle rubric manipulations that can induce significant preference drift, even while maintaining benchmark performance, creating a stealthy attack surface for biasing model alignment.

Ruomeng Ding, Yifei Pang, He Sun +3

Eval Frameworks & Benchmarks Red-Teaming & Adversarial Robustness RLHF & Preference Learning

Search

Zhiwei Wu

Research focus

Frequent co-authors

Papers (1)