Latticethe structure behind the noise

Papers Digest Topics Selected Labs Collections FAQ

Created by Flynn Lachendro

Papers Digest Topics Labs Saved

Search

Search papers, labs, and topics across Lattice.

Built by Flynn Lachendro·𝕏 / Twitter·RSS··FAQ·Glossary·Privacy

Yoav Artzi | Lattice

Yoav Artzi

Cornell University

Papers on Lattice

1

Total citations

0

Topics

3

h-index

36

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Natural Language Processing (1)Training Efficiency & Optimization (1)

Frequent co-authors

Nathan Godey (1)

Papers (1)

Mar 10, 2026

6d ago

Lost in Backpropagation: The LM Head is a Gradient Bottleneck

LLMs suffer from a severe gradient bottleneck in the output layer, suppressing 95-99% of the gradient norm and crippling training.

Nathan Godey, Yoav Artzi

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization