Nuno Gonçalves

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Natural Language Processing (1)Training Efficiency & Optimization (1)

Frequent co-authors

Nuno Gonccalves (1)Hugo Pitorro (1)Vlad Niculae (1)E. Ponti (1)

Papers (1)

Apr 16, 2026

Nuno Gonccalves +91w ago

AdaSplash-2: Faster Differentiable Sparse Attention

By cleverly initializing sparse attention with on-chip histograms, AdaSplash-2 achieves comparable or better training speed than FlashAttention-2 at moderate-to-high sparsity, unlocking the potential of $\alpha$-entmax for long-context transformers.

Nuno Gonccalves, Nuno Gonçalves, Hugo Pitorro +7

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Search

Nuno Gonçalves

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)