Iván Arcuschin

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Constitutional AI & AI Ethics (1)Red-Teaming & Adversarial Robustness (1)RLHF & Preference Learning (1)

Frequent co-authors

Atticus Wang (1)Arthur Conmy (1)

Papers (1)

Feb 16, 2026

Atticus Wang +2Feb 16, 2026

Automatically Finding Reward Model Biases

Skywork-V2-8B, a leading open-weight reward model, is shown to mistakenly favor responses with redundant spacing and hallucinated content, revealing critical vulnerabilities in current RM training.

Atticus Wang, Iván Arcuschin, Arthur Conmy

Constitutional AI & AI Ethics Red-Teaming & Adversarial Robustness RLHF & Preference Learning

Search

Iván Arcuschin

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)