Apple ML Research

×Architecture Design (Transformers, SSMs, MoE)

5 papers from Apple ML Research on Architecture Design (Transformers, SSMs, MoE)

May 6, 2026

2w ago·also Apple ML

Taming Outlier Tokens in Diffusion Transformers

Outlier tokens in Diffusion Transformers aren't just extreme values; they corrupt local patch semantics, and can be tamed with Dual-Stage Registers to boost image generation quality.

Xiaoyu Wu, Yifei Wang, Tsu-Jui Fu +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Apr 29, 2026

Apple ML3w ago·also CMU ML, UCSB

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Forget coarse sequence-level hacks: LenVM lets you precisely dial in token generation length, boosting a 7B model's length accuracy from 30.9 to 64.8 and crushing closed-source rivals.

Zhen Zhang, Changyi Yang, Zijie Xia +13

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Natural Language Processing

Apr 3, 2026

Apple MLApr 3, 2026

Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing

Forget full KV caches: randomly routing attention across layers during training lets you drastically cut memory without hurting performance, and sometimes even helps.

Anastasiia Filippova, David Grangier, Marco Cuturi +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Mar 5, 2026

Apple MLMar 5, 2026·also Tel-Aviv Univercity

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Text-to-video generation gets a 1.58x speed boost with CalibAtt, a training-free method that exploits consistent sparsity patterns in attention layers.

Shai Yehezkel, Shahar Yadin, S. Yadin +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Feb 26, 2026

Apple MLFeb 26, 2026·also IEEE, Paul G. Allen School of Computer Science

TrajTok: Learning Trajectory Tokens enables better Video Understanding

Ditch slow, external segmentation pipelines: TrajTok learns trajectory tokens end-to-end, boosting video understanding while staying lean and adaptable.

Chenhao Zheng, Jieyu Zhang, Jianing Zhang +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Search

Apple ML Research