March 25 – April 1, 2026

Architecture Design (Transformers, SSMs, MoE) - Weekly Roundup

100 papers published across 2 labs.

2% acceleration

Selected Labs publishing this week

Microsoft Research1 Tsinghua AI1

Top Papers

Mar 31, 2026

Timon Klein +41d ago

Tucker Attention: A generalization of approximate attention mechanisms

Tucker Attention squeezes an order of magnitude more parameter efficiency out of attention layers, while unifying and simplifying Group Query Attention, Multi-Head Latent Attention, and standard Multi-Head Attention.

Timon Klein, Jonas Kusch, Sebastian Sager +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Izavan dos S. Correia +21d ago

Automatic Identification of Parallelizable Loops Using Transformer-Based Source Code Representations

Forget hand-crafted features: DistilBERT can automatically identify parallelizable loops in code with >99% accuracy, opening the door to more efficient automatic parallelization.

Izavan dos S. Correia, Henrique C. T. Santos, Tiago A. E. Ferreira

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Training Efficiency & Optimization

Luigi Altamura +41d ago

SISA: A Scale-In Systolic Array for GEMM Acceleration

LLMs' skewed matrix shapes need not hamstring systolic array performance: SISA's partitioned architecture achieves up to 8.52x speedup and 93% EDP reduction compared to monolithic arrays.

Luigi Altamura, Alessio Cicero, Mateo Vázquez Maceiras +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Anirudh Raman +101d ago

Training deep learning based dynamic MR image reconstruction using synthetic fractals

Forget privacy concerns: you can train high-performing deep learning models for dynamic MRI reconstruction using *synthetic* fractal data.

Anirudh Raman, Olivier Jaubert, Mark Wrobel +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Quanhao Li +11d ago

Tracking vs. Deciding: The Dual-Capability Bottleneck in Searchless Chess Transformers

Chess transformers trained solely on move sequences face a "dual-capability bottleneck" where excelling at both state tracking and decision-making requires carefully balancing data diversity and quality, a tension that simple scaling cannot resolve.

Quanhao Li, Wei Jiang

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Training Efficiency & Optimization

All Papers (100)

Mar 31, 2026

Timon Klein +41d ago

Tucker Attention: A generalization of approximate attention mechanisms

Timon Klein, Jonas Kusch, Sebastian Sager +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Izavan dos S. Correia +21d ago

Automatic Identification of Parallelizable Loops Using Transformer-Based Source Code Representations

Forget hand-crafted features: DistilBERT can automatically identify parallelizable loops in code with >99% accuracy, opening the door to more efficient automatic parallelization.

Izavan dos S. Correia, Henrique C. T. Santos, Tiago A. E. Ferreira

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Training Efficiency & Optimization

Luigi Altamura +41d ago

SISA: A Scale-In Systolic Array for GEMM Acceleration

LLMs' skewed matrix shapes need not hamstring systolic array performance: SISA's partitioned architecture achieves up to 8.52x speedup and 93% EDP reduction compared to monolithic arrays.

Luigi Altamura, Alessio Cicero, Mateo Vázquez Maceiras +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Anirudh Raman +101d ago

Training deep learning based dynamic MR image reconstruction using synthetic fractals

Forget privacy concerns: you can train high-performing deep learning models for dynamic MRI reconstruction using *synthetic* fractal data.

Anirudh Raman, Olivier Jaubert, Mark Wrobel +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Quanhao Li +11d ago

Tracking vs. Deciding: The Dual-Capability Bottleneck in Searchless Chess Transformers

Quanhao Li, Wei Jiang

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Training Efficiency & Optimization

1d ago

Spontaneous Functional Differentiation in Large Language Models: A Brain-Like Intelligence Economy

LLMs spontaneously organize into brain-like functional units where the whole is greater than the sum of its parts, and destroying these synergistic cores cripples reasoning.

Junjie Zhang, Zhen Shen, Xisong Dong

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Scaling Laws & Emergent Abilities

Hengyu Zeng +71d ago

MacTok: Robust Continuous Tokenization for Image Generation

Image generation models can now achieve state-of-the-art fidelity with up to 64x fewer tokens, thanks to a novel masking strategy that prevents latent space collapse.

Hengyu Zeng, Xin Gao, Guanghao Li +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Pegah Ramezani +41d ago

Convergent Representations of Linguistic Constructions in Human and Artificial Neural Systems

Human brains and neural networks may converge on similar "Platonic" representations for linguistic constructions, suggesting universal principles guide efficient language abstraction.

Pegah Ramezani, Thomas Kinfe, Andreas Maier +2

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Xiao Liu +31d ago

Mean Masked Autoencoder with Flow-Mixing for Encrypted Traffic Classification

By mixing flows and using a teacher-student approach, MMAE learns to classify encrypted traffic more accurately than previous masked autoencoders.

Xiao Liu, Xiaowei Fu, Fuxiang Huang +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Qing He +21d ago

TrafficMoE: Heterogeneity-aware Mixture of Experts for Encrypted Traffic Classification

By disentangling headers and payloads with a Mixture-of-Experts architecture, TrafficMoE achieves state-of-the-art encrypted traffic classification, proving that heterogeneity-aware modeling is crucial for extracting discriminative features from noisy, encrypted data.

Qing He, Xiaowei Fu, Lei Zhang

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

D. Oprisa +11d ago

Metriplector: From Field Theory to Neural Architecture

Forget attention: Metriplectic dynamics offer a surprisingly effective and parameter-efficient route to neural computation, outperforming standard architectures in several domains.

D. Oprisa, Peter Toth

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

1d ago

iPoster: Content-Aware Layout Generation for Interactive Poster Design via Graph-Enhanced Diffusion Models

Forget tedious poster design – iPoster lets you sketch your vision and then uses a smart diffusion model to instantly generate polished, content-aware layouts that respect your constraints.

Xudong Zhou, Jinyuan Liang, Qiuyi Guo +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Fu Wang +61d ago

Hybrid Quantum-Classical Spatiotemporal Forecasting for 3D Cloud Fields

Quantum-inspired architectures can significantly improve 3D cloud forecasting by better capturing nonlocal dependencies, outperforming classical methods like ConvLSTM and Transformers.

Fu Wang, Qifeng Lu, X. Long +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision World Models & Planning

C. Goetze +21d ago

Deep Learning-Based Anomaly Detection in Spacecraft Telemetry on Edge Devices

You can shrink a spacecraft anomaly detection model by 97% and still catch almost all the problems.

C. Goetze, Tim Schlippe, Daniel Lakey

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Daniel Williams1d ago

Real-Time Band-Grouped Vocal Denoising Using Sigmoid-Driven Ideal Ratio Masking

Real-time vocal denoising is now possible with deep learning, achieving significant SNR improvements at under 10ms latency.

Daniel Williams

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Junjie Zhang +31d ago

Grokking From Abstraction to Intelligence

Grokking isn't just about local circuits or optimization tricks, but a global structural collapse of redundant model manifolds, revealing a deep connection between compression and generalization.

Junjie Zhang, Zhen Shen, Gang Xiong +1

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Training Efficiency & Optimization

Xaver Fabian +61d ago

Detecting speculative leaks with compositional semantics

Formalizing speculative execution vulnerabilities with compositional semantics allows for automated detection and verification, moving beyond ad-hoc countermeasures.

Xaver Fabian, Marco Guarnieri, Boris Köpf +4

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization

M.J.S. Farmer +61d ago

Software Vulnerability Detection Using a Lightweight Graph Neural Network

LLMs aren't the only path to vulnerability detection: a GNN-based model achieves near-parity with 100x less overhead.

M.J.S. Farmer, Ekincan Ufuktepe, Anne Watson +4

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Training Efficiency & Optimization

Dimitris Gkoulis1d ago

A Lightweight Hybrid Publish/Subscribe Event Fabric for IPC and Modular Distributed Systems

Achieve structured IPC and practical message movement in modular services with CNS, a lightweight hybrid event fabric that bridges in-process and inter-node communication with minimal overhead.

Dimitris Gkoulis

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Andreas Abel +21d ago

A Graded Modal Dependent Type Theory with Erasure, Formalized

Guaranteeing that erasing "erasable" function arguments provably preserves program behavior opens the door to more efficient and verifiable code optimization.

Andreas Abel, Nils Anders Danielsson, Oskar Eriksson

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Natural Language Processing

Jijun Lu +71d ago

Compressive sensing inspired self-supervised single-pixel imaging

Single-pixel imaging gets a deep learning boost: SISTA-Net leverages learned sparsity and hybrid CNN-VSSM architectures to achieve state-of-the-art reconstruction quality, even in noisy underwater environments.

Jijun Lu, Yifan Chen, Libang Chen +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Anmin Liu +71d ago·also Department of Electronic Engineering

VecAttention: Vector-wise Sparse Attention for Accelerating Long Context Inference

Video Transformers can achieve near-full attention accuracy with significantly less compute by focusing only on informative vertical vectors.

Anmin Liu, Ruixuan Yang, Huiqiang Jiang +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

1d ago·also WHU

Not All Frames Are Equal: Complexity-Aware Masked Motion Generation via Motion Spectral Descriptors

Masked motion generators struggle with complex movements because they treat all frames the same – until now.

Pengfei Zhou, Xiangyue Zhang, Xukun Shen +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Rongkang Dong +41d ago

Emotion Diffusion Classifier with Adaptive Margin Discrepancy Training for Facial Expression Recognition

Diffusion models can beat discriminative classifiers at facial expression recognition, but only with a dynamically adjusted margin loss that accounts for per-sample difficulty.

Rongkang Dong, Cuixin Yang, Cong Zhang +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Ziyang Chen +41d ago

StereoVGGT: A Training-Free Visual Geometry Transformer for Stereo Vision

A training-free feature adjustment pipeline unlocks the power of Visual Geometry Grounded Transformers for stereo vision, achieving state-of-the-art results on KITTI.

Ziyang Chen, Yansong Qu, You Shen +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Taewoo Suh +31d ago

AA-Splat: Anti-Aliased Feed-forward Gaussian Splatting

Rendering artifacts in feed-forward 3D Gaussian Splatting? Solved: AA-Splat delivers a whopping 7dB PSNR boost by fixing screen-space dilation filters.

Taewoo Suh, Sungpyo Kim, Jongmin Park +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Phonphrm Thawatdamrongkit +21d ago

Diffusion Mental Averages

Forget blurry averages – DMA unlocks sharp, realistic concept prototypes directly within diffusion models, offering a new lens into model understanding and bias.

Phonphrm Thawatdamrongkit, Sukit Seripanitkarn, Supasorn Suwajanakorn

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Tao Chen +71d ago

Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

Forget expensive training: FlexMem unlocks SOTA long-video MLLM performance on a single GPU by cleverly mimicking human memory recall.

Tao Chen, Kun Zhang, Qiong Wu +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Payal Fofadiya +11d ago

Developing Adaptive Context Compression Techniques for Large Language Models (LLMs) in Long-Running Interactions

LLMs can maintain conversational stability and improve retrieval accuracy in long-running interactions by adaptively compressing context, leading to reduced token usage and faster inference.

Payal Fofadiya, Sunil Tiwari

Architecture Design (Transformers, SSMs, MoE)Eval Frameworks & Benchmarks Inference & Quantization

Sunil Tiwari +11d ago

Multi-Layered Memory Architectures for LLM Agents: An Experimental Evaluation of Long-Term Context Retention

Dialogue agents can now remember what you told them six turns ago with 57% accuracy, thanks to a new memory architecture that selectively forgets less important details.

Sunil Tiwari, Payal Fofadiya

Architecture Design (Transformers, SSMs, MoE)Eval Frameworks & Benchmarks Tool Use & Agents

Anja Bosak +31d ago

Design and Aerodynamic Modeling of MetaMorpher: A Hybrid Rotary andFixed-Wing Morphing UAV

Unlock rapid UAV design iteration with MetaMorpher's modular, nonlinear flight dynamics model that accurately simulates diverse wing configurations and flight modes.

Anja Bosak, Dorian Erić, Ana Milas +1

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI

Jaber Jaber +11d ago

HCLSM: Hierarchical Causal Latent State Machines for Object-Centric World Modeling

World models can achieve state-of-the-art video prediction and emergent object decomposition by combining object-centric slots, hierarchical temporal dynamics, and learned causal interaction graphs.

Jaber Jaber, O. Jaber

Architecture Design (Transformers, SSMs, MoE)Computer Vision World Models & Planning

Abrarul Karim +21d ago

Exploration of Energy and Throughput Tradeoffs for Dataflow Networks

Dataflow networks can achieve significant energy savings without sacrificing throughput by strategically powering down actors during idle periods, a balance efficiently discovered using a novel "Hop and Skip" exploration strategy.

Abrarul Karim, J. Falk, J. Teich

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Karan Pathak +21d ago

CXLRAMSim v1.0: System-Level Exploration of CXL Memory Expander Cards

Finally, a gem5-integrated simulator that accurately models CXL memory expansion for LLMs, capturing real-world effects like cache pollution.

Karan Pathak, David Atienza, Marina Zapater

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Enlai Li +31d ago

AP-DRL: A Synergistic Algorithm-Hardware Framework for Automatic Task Partitioning of Deep Reinforcement Learning on Versal ACAP

Achieve up to 4.17x speedup in DRL training by intelligently partitioning tasks across CPUs, FPGAs, and AI Engines on AMD Versal ACAP, demonstrating the power of hardware-aware algorithm design.

Enlai Li, Zhe Lin, Sharad Sinha +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Department of Physics1d ago·also Department of Physics and INFN

Sampling at intermediate temperatures is optimal for training large language models in protein structure prediction

Forget the cold start: training transformers for protein structure prediction peaks at intermediate temperatures, revealing a sweet spot in the loss landscape.

L. Ghiringhelli, A. Zambon, G. Tiana

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

J. Tong +151d ago

Layer-selective hydrogenation and proton transport in twisted bilayer graphene

Twisted bilayer graphene enables the creation of parallel and configurable logic gates by exploiting layer-selective hydrogenation and proton transport.

J. Tong, G. Chen, H. Li +13

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

Detai Xin +61d ago

LongCat-AudioDiT: High-Fidelity Diffusion Text-to-Speech in the Waveform Latent Space

Ditching mel-spectrograms unlocks surprisingly better text-to-speech, as LongCat-AudioDiT proves that waveform latent diffusion can beat the state-of-the-art in zero-shot voice cloning.

Detai Xin, Shujie Hu, Chengzuo Yang +4

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Speech & Audio

U.H Shin +11d ago

Asymmetric Encoder-Decoder Based on Time-Frequency Correlation for Speech Separation

By disentangling speakers earlier in the process, SR-CorrNet avoids the information bottleneck that plagues existing speech separation models, leading to improved performance in challenging acoustic environments.

U.H Shin, Hyung-Min Park

Architecture Design (Transformers, SSMs, MoE)Speech & Audio

1d ago·also Microsoft Research, Independent

Drift-Aware Continual Tokenization for Generative Recommendation

Generative recommendation models can adapt to evolving user behavior without catastrophic forgetting by selectively updating item tokens based on a novel drift-detection mechanism.

Yuebo Feng, Jiahao Liu, Mingzhe Han +5

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Recommendation & Information Retrieval

Badhan Mazumder +41d ago

Learning Structural-Functional Brain Representations through Multi-Scale Adaptive Graph Attention for Cognitive Insight

Brain-inspired AI gets a boost: a new graph neural network fuses structural and functional brain data to predict cognitive function better than ever before.

Badhan Mazumder, Sir-Lord Wiafe, Aline Kotoski +2

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

Mar 30, 2026

2d ago

On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

Unleashing creative potential in text-to-image models just got easier: on-the-fly repulsion in the contextual space lets you steer diffusion transformers towards richer diversity without sacrificing image quality or blowing your compute budget.

Omer Dahary, Benaya Koren, Daniel Garibi +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Yufei Xu +142d ago

HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention

Scanning every token to focus attention is now passé: HISA prunes irrelevant context blocks *before* token-level scoring, slashing compute without sacrificing selection fidelity.

Yufei Xu, Fanxu Meng, Fan Jiang +12

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Aur Shalev Merin2d ago

Temporal Credit Is Free

Forget backpropagation through time: recurrent networks already have temporal credit baked into their forward pass.

Aur Shalev Merin

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Tsinghua AI2d ago

Rethinking Language Model Scaling under Transferable Hypersphere Optimization

Forget painstaking hyperparameter tuning: this hypersphere parameterization lets you transfer a single learning rate across model sizes, depths, and even MoE architectures, slashing compute costs by 1.58x.

Liliang Ren, Yelong Shen, Weizhu Chen

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Training Efficiency & Optimization

Meitong Liu +42d ago

Expectation Error Bounds for Transfer Learning in Linear Regression and Linear Neural Networks

Forget heuristics – this work gives provable conditions for *when* and *how* auxiliary data actually improve generalization in transfer learning.

Meitong Liu, Christopher Jung, Rui Li +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Damian Sójka +22d ago

Subspace Optimization for Backpropagation-Free Continual Test-Time Adaptation

Backpropagation-free test-time adaptation can be both accurate and efficient: PACE achieves state-of-the-art accuracy while slashing runtime by over 50%.

Damian Sójka, Sebastian Cygert, Marc Masana

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Shivnath Tathe2d ago

LACE: Loss-Adaptive Capacity Expansion for Continual Learning

Models can dynamically grow their own capacity during continual learning, adding parameters only when and where they're needed, without human intervention.

Shivnath Tathe

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Christian Kuehn +22d ago

Universal Approximation Constraints of Narrow ResNets: The Tunnel Effect

Narrow ResNets can struggle to represent critical points in input-output mappings, effectively pushing them to infinity and hindering accurate function approximation.

Christian Kuehn, Sara-Viola Kuntz, Tobias Wöhrer

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Yoann Boget +12d ago

Unrestrained Simplex Denoising for Discrete Data. A Non-Markovian Approach Applied to Graph Generation

Ditching Markovian constraints unlocks surprisingly better discrete generation, with simplex denoising outperforming diffusion and flow-matching on graphs.

Yoann Boget, Alexandros Kalousis

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

University of Florence2d ago

Spectral Higher-Order Neural Networks

Higher-order neural networks don't need hypergraphs: SHONNs unlock their power for general-purpose feedforward architectures by sidestepping stability and scaling issues.

Gianluca Peri, Timoteo Carletti, Duccio Fanelli +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Carlos Güemes-Palau +42d ago

From Simulation to Deep Learning: Survey on Network Performance Modeling Approaches

The shift from traditional simulation to deep learning for network performance modeling brings new opportunities, but also requires careful consideration of evaluation methodologies to ensure fair comparison.

Carlos Güemes-Palau, Miquel Ferriol-Galmés, Jordi Paillisse-Vilanova +2

Architecture Design (Transformers, SSMs, MoE)World Models & Planning

Qing Qing +42d ago

NeiGAD: Augmenting Graph Anomaly Detection via Spectral Neighbor Information

Spectral analysis of graph neighborhoods reveals a surprisingly effective and efficient way to boost anomaly detection, consistently outperforming existing GNN-based methods.

Qing Qing, Huafei Huang, Mingliang Hou +2

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Gnankan Landry Regis N'guessan2d ago

FI-KAN: Fractal Interpolation Kolmogorov-Arnold Networks

Forget smooth sailing: FI-KAN's fractal bases let neural networks conquer non-smooth functions and PDEs with up to 79x better accuracy.

Gnankan Landry Regis N'guessan

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2d ago

MR-ImagenTime: Multi-Resolution Time Series Generation through Dual Image Representations

Multi-resolution decomposition and diffusion models can boost time series forecasting accuracy by up to 10% over existing methods.

Xianyong Xu, Yuanjun Zuo, Zhihong Huang +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision

David Breazu2d ago

Nonlinear Factor Decomposition via Kolmogorov-Arnold Networks: A Spectral Approach to Asset Return Analysis

KAN-PCA beats classical PCA in capturing variance in asset returns by learning nonlinear relationships, especially when markets get weird.

David Breazu

Architecture Design (Transformers, SSMs, MoE)

Da Chang +72d ago

MuonEq: Balancing Before Orthogonalization with Lightweight Equilibration

Row/column normalization *before* orthogonalization can significantly boost convergence and reduce validation perplexity in LLaMA2 pretraining, outperforming the base Muon optimizer.

Da Chang, Qiankun Shi, Lvgang Zhang +5

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Yves Ruffenach2d ago

Variational Neurons in Transformers for Language Modeling

Transformers can now predict with an explicit internal structure of uncertainty, enabling stronger probabilistic evaluation and a more informative analysis of model behavior.

Yves Ruffenach

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Hongkai Hu2d ago

Policy-Controlled Generalized Share: A General Framework with a Transformer Instantiation for Strictly Online Switching-Oracle Tracking

Transformers can now dynamically adapt expert weighting in online learning, achieving state-of-the-art dynamic regret in non-stationary environments.

Hongkai Hu

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Università degli Studi Guglielmo Marconi2d ago·also Chelonia SA

Graph Vector Field: A Unified Framework for Multimodal Health Risk Assessment from Heterogeneous Wearable and Environmental Data Streams

Finally, a framework that unifies dynamic graph models, topological learning, and multimodal fusion to decompose health risk into interpretable components.

Silvano Coletti, Francesca Fallucchi

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Scientific Discovery & Drug Design

Seunghun Oh +12d ago

Attention Frequency Modulation: Training-Free Spectral Modulation of Diffusion Cross-Attention

Steer Stable Diffusion's attention like an equalizer, sculpting image details without retraining by simply tweaking the frequency spectrum of cross-attention.

Seunghun Oh, Unsang Park

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Dominic Schneider +22d ago

Transformer-Based Prognostics: Enhancing Network Availability by Improved Monitoring of Optical Fiber Amplifiers

A lightweight transformer can forecast optical amplifier failures in real-time, paving the way for self-healing networks.

Dominic Schneider, Lutz Rapp, Christoph Ament

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Muhammad Abid +12d ago

SIMR-NO: A Spectrally-Informed Multi-Resolution Neural Operator for Turbulent Flow Super-Resolution

Reconstructing high-resolution turbulence from extremely coarse data is now possible with SIMR-NO, which not only beats existing methods in accuracy but also respects the underlying physics.

Muhammad Abid, Omer San

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

Julio Candanedo +12d ago

Diffusion Maps is not Dimensionality Reduction

Diffusion Maps alone fail to directly recover low-dimensional charts, requiring combination of multiple modes, challenging their common perception as a drop-in dimensionality reduction technique.

Julio Candanedo, Alejandro Patiño

Architecture Design (Transformers, SSMs, MoE)Computer Vision Natural Language Processing

2d ago

FedDES: Graph-Based Dynamic Ensemble Selection for Personalized Federated Learning

FedDES achieves instance-level personalization in federated learning by dynamically selecting and weighting peer models with a GNN, leading to significant performance gains in heterogeneous environments.

Brianna Mueller, W. Nick Street

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Nihal Sanjay Singh +32d ago

From Independent to Correlated Diffusion: Generalized Generative Modeling with Probabilistic Computers

Correlated diffusion, enabled by probabilistic computers, surpasses independent diffusion in generative modeling by exploiting structured probabilistic sampling.

Nihal Sanjay Singh, Mazdak Mohseni-Rajaee, Shaila Niazi +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Sravanth Kodavanti +42d ago

EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation

Runaway compute costs for diffusion models on GPUs? EdgeDiT slashes parameters by 30% and latency by 40% while maintaining image quality, all on your phone.

Sravanth Kodavanti, Manjunath Arveti, Sowmya Vajrala +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

Yipeng Yu2d ago

Deep Research of Deep Research: From Transformer to Agent, From AI to AI for Science

LLMs and Stable Diffusion aren't just cool tools; they're the twin pillars of a new era where AI agents can conduct "deep research" rivaling top human scientists.

Yipeng Yu

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Tool Use & Agents

Weimin Liu +42d ago

DiffAttn: Diffusion-Based Drivers' Visual Attention Prediction with LLM-Enhanced Semantic Reasoning

Diffusion models can now predict driver attention with state-of-the-art accuracy by incorporating LLM-enhanced semantic reasoning.

Weimin Liu, Qingkun Li, Jiyuan Qiu +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

David K. Johansson2d ago

Reasoning as Energy Minimization over Structured Latent Trajectories

Latent planning for reasoning can actually *hurt* performance due to decoder distribution shift, highlighting a critical challenge in bridging neural and symbolic reasoning.

David K. Johansson

Architecture Design (Transformers, SSMs, MoE)Reasoning & Chain-of-Thought World Models & Planning

Minh-Khoi Do +42d ago

TwinMixing: A Shuffle-Aware Feature Interaction Model for Multi-Task Segmentation

Achieve state-of-the-art segmentation accuracy on drivable-area and lane segmentation tasks with a model under 5M parameters, demonstrating that high performance doesn't always require massive architectures.

Minh-Khoi Do, Huy Che, Dinh-Duy Phan +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Junghoon Justin Park +22d ago

Q-DIVER: Integrated Quantum Transfer Learning and Differentiable Quantum Architecture Search with EEG Data

Quantum circuits can match classical MLPs on EEG classification tasks while using 50x fewer parameters, thanks to differentiable quantum architecture search that automatically optimizes circuit topology.

Junghoon Justin Park, Yeonghyeon Park, Jiook Cha

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Chanseul Cho +42d ago

RecycleLoRA: Rank-Revealing QR-Based Dual-LoRA Subspace Adaptation for Domain Generalized Semantic Segmentation

RecycleLoRA reveals that strategically targeting minor subspace directions in VFMs with LoRA adapters can unlock surprisingly robust domain generalization in semantic segmentation.

Chanseul Cho, Seokju Yun, Jeaseong Jeon +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Edward Wijaya2d ago

What an Autonomous Agent Discovers About Molecular Transformer Design: Does It Transfer?

Autonomous architecture search for molecular transformers is surprisingly fruitless: you're better off just tuning learning rates.

Edward Wijaya

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Institut für Theoretische Physik2d ago·also National High Magnetic Field Laboratory, VTT

Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT

Forget pruning or quantization: MPO decomposition lets you compress a transformer by 13x while retaining 97% accuracy.

Younes Javanmard, Tanmoy Pandit, Masoud Mardani

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Open-Source Models & Weights

Surendra Pathak2d ago

Efficient Inference of Large Vision Language Models

LVLM inference is ripe for optimization, but current acceleration techniques only scratch the surface.

Surendra Pathak

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Multimodal Models

Shuhei Kondo +22d ago

Top-down string-to-dependency Neural Machine Translation

Syntactic NMT decoders don't have to be bottom-up: a top-down tree generation strategy can drastically improve translation of long, rare sequences.

Shuhei Kondo, Katsuhito Sudoh, Yuji Matsumoto

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Ricardo Alves Faval +52d ago

Empowering Mobile Networks Security Resilience by using Post-Quantum Cryptography

Quantum-proofing your 5G core doesn't have to break the bank: a sidecar proxy can add post-quantum cryptography with a predictable 50ms latency hit.

Ricardo Alves Faval, Ricardo Alves Faval, Rodrigo Moreira +3

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Open-Source Models & Weights

Aymen Lassoued +62d ago

VulnScout-C: A Lightweight Transformer for C Code Vulnerability Detection

A task-specific, lightweight transformer can outperform state-of-the-art reasoning LLMs and commercial tools in C code vulnerability detection, at a fraction of the inference cost.

Aymen Lassoued, Nacef Mbarek, Bechir Dardouri +4

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Open-Source Models & Weights

Sadra Safadoust +32d ago

FlowIt: Global Matching for Optical Flow with Confidence-Guided Refinement

Global context and confidence-guided refinement can unlock state-of-the-art optical flow estimation, even in challenging scenarios with large displacements and occlusions.

Sadra Safadoust, Fabio Tosi, Matteo Poggi +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Joanna Wiekiera +12d ago

Divide and Restore: A Modular Task-Decoupled Framework for Universal Image Restoration

Forget retraining the whole model when adding a new image degradation type – this modular routing approach lets you plug in a new expert with minimal overhead.

Joanna Wiekiera, Martyna Zur

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Jin Bai +62d ago

Bridging the Geometry Mismatch: Frequency-Aware Anisotropic Serialization for Thin-Structure SSMs

SSMs struggle to segment thin structures because they propagate information across, not along, the target, but this frequency-aware approach realigns serialization to trace the geometry.

Jin Bai, Huiyao Zhang, Qi Wen +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision

2d ago·also CAS, MTLab

Rethinking Structure Preservation in Text-Guided Image Editing with Visual Autoregressive Models

Achieve significantly better structure preservation in text-guided image editing by injecting structure-related features into visual autoregressive models, guided by reinforcement learning.

Tao Xia, Jiawei Liu, Yukun Zhang +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Intellindust AI Lab2d ago

A Closer Look at Cross-Domain Few-Shot Object Detection: Fine-Tuning Matters and Parallel Decoder Helps

Simple fine-tuning with a parallel decoder and smart learning rate schedule lets you beat more complex meta-learning approaches in cross-domain few-shot object detection.

Xuanlong Yu, Youyang Sha, Longfei Liu +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Zhen Zou +52d ago

Drift-AR: Single-Step Visual Autoregressive Generation via Anti-Symmetric Drifting

Unlock 5x faster autoregressive image generation by using a single entropy signal to simultaneously optimize draft prediction and enable single-step diffusion decoding.

Zhen Zou, Xiaoxiao Ma, Mingde Yao +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Liang Sun2d ago

Object Detection Based on Distributed Convolutional Neural Networks

Lightweight DisCNNs offer a surprisingly efficient route to object detection by exploiting monotonic relationships between network outputs and feature presence.

Liang Sun

Architecture Design (Transformers, SSMs, MoE)Computer Vision Distributed Systems & Hardware

Jiong Liu +62d ago

SegRGB-X: General RGB-X Semantic Segmentation Model

A single model can now achieve state-of-the-art semantic segmentation across diverse sensor modalities like thermal, depth, and polarization, eliminating the need for modality-specific architectures.

Jiong Liu, Yingjie Xu, Xingcheng Zhou +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Federico Mariano +92d ago

Off-Axis Compliant RCM Joint with Near-Isotropic Stiffness and Minimal Parasitic Error

Neurosurgeons gain a compact, sterilizable RCM joint with near-isotropic stiffness, minimizing unwanted motion during delicate procedures.

Federico Mariano, E. Momi, Elena De Momi +7

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI

2d ago·also Huawei, Ningbo University

Varuna: Enabling Failure-Type Aware RDMA Failover

RDMA failover can be made significantly more efficient and correct by selectively retransmitting only the requests that were actually lost during a link failure, avoiding redundant retransmissions and semantic violations.

Xiaoyang Wang, Yongkun Li, Lulu Yao +9

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

E.J. Yoon +12d ago

ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing

Achieve FP16-level LLM accuracy at 3-bit quantization, unlocking 1.5x faster inference than 4-bit methods on consumer GPUs.

E.J. Yoon, Edward J. Yoon

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Dominik Walter +52d ago

Loop Control Management in Tightly Coupled Processor Arrays (TCPAs)

Squeezing loop control down to <10% of array resources unlocks near-zero-overhead parallel loop acceleration on Tightly Coupled Processor Arrays.

Dominik Walter, Dominik Walter, Frank Hannig +3

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Siqing Fu +82d ago

MCPT-Solver: An Monte Carlo Algorithm Solver Using MTJ Devices for Particle Transport Problems

Forget CPUs and GPUs: MCPT-Solver uses spintronics and Bayesian inference to create a hardware random number generator that dramatically accelerates Monte Carlo particle transport simulations.

Siqing Fu, Lizhou Wu, Tiejun Li +6

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Scientific Discovery & Drug Design

Bharath Krishnamurthy +12d ago

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Achieve 40% better visual fidelity in multimodal face generation by deeply fusing text and spatial priors within a unified diffusion transformer.

Bharath Krishnamurthy, A. Rattani

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Muyang He +72d ago

Video Generation Models as World Models: Efficient Paradigms, Architectures and Algorithms

Efficiency is the key bottleneck preventing video generation models from becoming general-purpose world simulators, and this paper provides a taxonomy of techniques to overcome it.

Muyang He, Muyang He, Hanzhong Guo +5

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization World Models & Planning

2d ago·also ELIZA, PoliTo, TU Munich

INSID3: Training-Free In-Context Segmentation with DINOv3

DINOv3's self-supervised features are surprisingly good at zero-shot in-context segmentation, beating fine-tuned models with a fraction of the parameters.

C. Cuttano, Claudia Cuttano, Gabriele Trivigno +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Christopher Clark +112d ago

MolmoPoint: Better Pointing for VLMs with Grounding Tokens

Ditch the coordinate system: VLMs can point *way* better by directly selecting visual tokens, leading to SOTA results and improved sample efficiency.

Christopher Clark, Yue Yang, J. Park +9

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Diego C. Lerma-Torres2d ago

Human-Like Lifelong Memory: A Neuroscience-Grounded Architecture for Infinite Interaction

LLMs can achieve human-like efficiency in long-term interactions by structuring memory around emotional valence, prioritizing automatic retrieval, and actively encoding information based on curiosity and feedback.

Diego C. Lerma-Torres

Architecture Design (Transformers, SSMs, MoE)Reasoning & Chain-of-Thought Tool Use & Agents

IIT2d ago·also L3S Research Center

Known Intents, New Combinations: Clause-Factorized Decoding for Compositional Multi-Intent Detection

Simple factorization beats BERT at generalizing to unseen combinations of intents, but only if you evaluate it the right way.

Abhilash Nandy

Architecture Design (Transformers, SSMs, MoE)Eval Frameworks & Benchmarks Natural Language Processing

Zhongping Ji2d ago

IsoQuant: Hardware-Aligned SO(4) Isoclinic Rotations for LLM KV Cache Compression

Forget slow rotations: IsoQuant's quaternion-based approach warps RotorQuant in LLM KV cache compression, delivering up to 6x speedups on synthetic data.

Zhongping Ji

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

2d ago

Beyond Cosine Similarity: Zero-Initialized Residual Complex Projection for Aspect-Based Sentiment Analysis

By projecting text into a complex semantic space, this model achieves SOTA on aspect-based sentiment analysis by disentangling sentiment polarity from semantic intensity.

Yijin Wang, Fan Sun, Fandi Sun

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing