Lingyu Li

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Constitutional AI & AI Ethics (1)Interpretability & Mechanistic Interp (1)Red-Teaming & Adversarial Robustness (1)

Frequent co-authors

Yan Teng (1)Yingchun Wang (1)

Papers (1)

Mar 16, 2026

Lingyu Li +21d ago

Mechanistic Origin of Moral Indifference in Language Models

LLMs exhibit a surprising "moral indifference," failing to internally distinguish between opposed moral concepts regardless of size, architecture, or alignment, but this can be partially remedied by representational alignment using sparse autoencoders.

Lingyu Li, Yan Teng, Yingchun Wang

Constitutional AI & AI Ethics Interpretability & Mechanistic Interp Red-Teaming & Adversarial Robustness

Search

Lingyu Li

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)