Joao Monteiro

Apple

Apple ML Research

Papers on Lattice

Total citations

Topics

h-index

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Distributed Systems & Hardware (1)Inference & Quantization (1)

Frequent co-authors

Anastasiia Filippova (1)David Grangier (1)Marco Cuturi (1)

Papers (1)

Apr 3, 2026

Apple MLApr 3, 2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Forget full KV caches: randomly routing attention across layers during training lets you drastically cut memory without hurting performance, and sometimes even helps.

Anastasiia Filippova, David Grangier, Marco Cuturi +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Search

Joao Monteiro

Research focus

Frequent co-authors

Papers (1)