Anastasiia Filippova

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Distributed Systems & Hardware (1)Inference & Quantization (1)Data Curation & Synthetic Data (1)Natural Language Processing (1)

Frequent co-authors

David Grangier (2)Marco Cuturi (1)Joao Monteiro (1)Skyler Seto (1)

Papers (2)

Apr 3, 2026

Apple MLApr 3, 2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Forget full KV caches: randomly routing attention across layers during training lets you drastically cut memory without hurting performance, and sometimes even helps.

Anastasiia Filippova, David Grangier, Marco Cuturi +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Mar 19, 2026

Optimal Splitting of Language Models from Mixtures to Specialized Domains

Stop guessing how much to pretrain vs. specialize your language model – scaling laws can now tell you the optimal compute allocation for maximizing performance on downstream tasks.

Skyler Seto, Pierre Ablin, Anastasiia Filippova +5

Data Curation & Synthetic Data Natural Language Processing Training Efficiency & Optimization

Search

Anastasiia Filippova

Research focus

Frequent co-authors

Papers (2)