April 24 – May 1, 2026

Scaling Laws & Emergent Abilities - Weekly Roundup

10 papers published across 0 labs.

Top Papers

Apr 30, 2026

Maxwell Lovig +13w ago

Decoupled Descent: Exact Test Error Tracking Via Approximate Message Passing

Achieve perfect train-test error tracking with a new training algorithm, Decoupled Descent, that eliminates the need for validation sets in certain stylized settings.

Maxwell Lovig, Max Lovig

Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Thomas Jefferson High School for Science and Technology3w ago·also UVA

Mapping the Phase Diagram of the Vicsek Model with Machine Learning

Machine learning can turn sparse simulation data into a complete phase diagram for collective motion models, revealing nuanced phase boundaries.

Grace T. Bai, Grace T. Bai, Brandon B. Le +1

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Scientific Discovery & Drug Design

Apr 29, 2026

Théo Gigant +23w ago

Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

Subword tokenization's secret sauce isn't just vocabulary size – it's the boosted training throughput and the subtle linguistic priors baked into subword boundaries.

Théo Gigant, Bowen Peng, Jeffrey Quesnelle

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

3w ago·also Independent Researcher, Laboratoire de Physique Théorique et Modélisation, Radboud

Language Diffusion Models are Associative Memories Capable of Retrieving Unseen Data

Language diffusion models aren't just generative, they're associative memories that reveal a sharp memorization-to-generalization transition detectable via conditional entropy.

Bao Pham, Mohammed J. Zaki, Luca Ambrogioni +2

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Scaling Laws & Emergent Abilities

Apr 28, 2026

Rushil Chandrupatla +33w ago

Investigation into In-Context Learning Capabilities of Transformers

Forget scaling laws: this study reveals a detailed empirical map of *when* and *why* transformers succeed or fail at in-context learning, highlighting the crucial interplay of dimensionality, signal strength, and contextual information.

Rushil Chandrupatla, Leo Bangayan, Sebastian Leng +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Scaling Laws & Emergent Abilities

All Papers (10)

Apr 30, 2026

Maxwell Lovig +13w ago

Decoupled Descent: Exact Test Error Tracking Via Approximate Message Passing

Achieve perfect train-test error tracking with a new training algorithm, Decoupled Descent, that eliminates the need for validation sets in certain stylized settings.

Maxwell Lovig, Max Lovig

Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Thomas Jefferson High School for Science and Technology3w ago·also UVA

Mapping the Phase Diagram of the Vicsek Model with Machine Learning

Machine learning can turn sparse simulation data into a complete phase diagram for collective motion models, revealing nuanced phase boundaries.

Grace T. Bai, Grace T. Bai, Brandon B. Le +1

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Scientific Discovery & Drug Design

Apr 29, 2026

Théo Gigant +23w ago

Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation

Subword tokenization's secret sauce isn't just vocabulary size – it's the boosted training throughput and the subtle linguistic priors baked into subword boundaries.

Théo Gigant, Bowen Peng, Jeffrey Quesnelle

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

3w ago·also Independent Researcher, Laboratoire de Physique Théorique et Modélisation, Radboud

Language Diffusion Models are Associative Memories Capable of Retrieving Unseen Data

Language diffusion models aren't just generative, they're associative memories that reveal a sharp memorization-to-generalization transition detectable via conditional entropy.

Bao Pham, Mohammed J. Zaki, Luca Ambrogioni +2

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Scaling Laws & Emergent Abilities

Apr 28, 2026

Rushil Chandrupatla +33w ago

Investigation into In-Context Learning Capabilities of Transformers

Rushil Chandrupatla, Leo Bangayan, Sebastian Leng +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Scaling Laws & Emergent Abilities

Saarland University3w ago·also Ohio State

Barriers to Universal Reasoning With Transformers (And How to Overcome Them)

Chain-of-Thought reasoning in Transformers hits a surprising expressivity ceiling when generalizing to longer sequences, unless you let your vocabulary grow with the problem size and use "signpost" tokens.

Oliver Kraus, Yash Sarrof, Yuekun Yao +2

Architecture Design (Transformers, SSMs, MoE)Reasoning & Chain-of-Thought Scaling Laws & Emergent Abilities

Ocean Monjur +23w ago

Doing More With Less: Revisiting the Effectiveness of LLM Pruning for Test-Time Scaling

Unstructured pruning isn't just about shrinking LLMs; it can actually *boost* their reasoning abilities during test-time scaling, outperforming even the full, unpruned models.

Ocean Monjur, Shahriar Kabir Nahin, Anshuman Chhabra

Inference & Quantization Reasoning & Chain-of-Thought Scaling Laws & Emergent Abilities

Evolutionairy AI3w ago

The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive

LLMs from different vendors and sizes secretly speak the same statistical language, enabling a blazing-fast, model-agnostic output verification method.

Alex Bogdan, Adrian de Valois-Franklin

Eval Frameworks & Benchmarks Inference & Quantization Scaling Laws & Emergent Abilities

Penghao Kuang +43w ago

Scaling Probabilistic Transformer via Efficient Cross-Scale Hyperparameter Transfer

Probabilistic Transformers can now scale to 0.4B parameters and beat standard Transformers of the same size, thanks to a hyperparameter transfer trick.

Penghao Kuang, Peng Kuang, Haoyi Wu +2

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Apr 27, 2026

Parsa Ashrafi Fashi +193w ago

Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling

Forget training from scratch: HyLo lets you breathe new (long-context) life into your existing Transformer LLMs, achieving 32x context extension and 90% KV-cache reduction.

Parsa Ashrafi Fashi, Parsa Ashrafi Fashi, Utkarsh Saxena +17

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Search

Scaling Laws & Emergent Abilities - Weekly Roundup

Top Papers

All Papers (10)