April 24 – May 1, 2026

Architecture Design (Transformers, SSMs, MoE) - Weekly Roundup

100 papers published across 11 labs.

Selected Labs publishing this week

Tsinghua AI4 Stanford HAI3 Microsoft Research2 Amazon Science1 Meta AI1

Top Papers

Apr 30, 2026

Kiel University3w ago

A Monadic Implementation of Functional Logic Programs

Functional logic programs can be efficiently implemented in purely functional languages like Haskell, achieving performance gains over existing Curry compilers by using a novel monadic interface with memoization.

M. Hanus, Michael Hanus, Kai-Oliver Prott +1

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Natural Language Processing

Mehryar Mohri +23w ago

Linear-Core Surrogates: Smooth Loss Functions with Linear Rates for Classification and Structured Prediction

Get the best of both worlds: Linear-Core Surrogates offer the fast optimization of smooth losses and the statistical efficiency of margin-based losses, without sacrificing differentiability.

Mehryar Mohri, M. Mohri, Yutao Zhong

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

May 1, 2026

Zi-qiang Zhao +13w ago

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

Tree-based RAG gets a major upgrade: $\Psi$-RAG's adaptive hierarchical index and multi-granular retrieval agent leapfrog existing methods on complex, cross-document reasoning tasks.

Zi-qiang Zhao, Menglin Yang

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Recommendation & Information Retrieval

Sai Niranjan Ramachandran +13w ago

Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

Decision trees and diffusion models are secretly doing the same thing: optimizing a shared objective called Global Trajectory Score Matching.

Sai Niranjan Ramachandran, S. Sra

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Wenda Chu +63w ago

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Jointly training the tokenizer and autoregressive model slashes ImageNet FID to 1.48, finally making end-to-end autoregressive image generation competitive.

Wenda Chu, Bingliang Zhang, Jiaqi Han +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

All Papers (100)

May 1, 2026

Zi-qiang Zhao +13w ago

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

Tree-based RAG gets a major upgrade: $\Psi$-RAG's adaptive hierarchical index and multi-granular retrieval agent leapfrog existing methods on complex, cross-document reasoning tasks.

Zi-qiang Zhao, Menglin Yang

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Recommendation & Information Retrieval

Sai Niranjan Ramachandran +13w ago

Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

Decision trees and diffusion models are secretly doing the same thing: optimizing a shared objective called Global Trajectory Score Matching.

Sai Niranjan Ramachandran, S. Sra

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Wenda Chu +63w ago

End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

Jointly training the tokenizer and autoregressive model slashes ImageNet FID to 1.48, finally making end-to-end autoregressive image generation competitive.

Wenda Chu, Bingliang Zhang, Jiaqi Han +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Stanford HAI3w ago·also Tsinghua AI, Beihang, CUHK, HKUST +1

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Instead of training separate video diffusion models for each multimodal task, UniVidX learns a single model that handles diverse pixel-aligned video generation problems.

Houyuan Chen, Hong Li, Xianghao Kong +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Yan Fang +93w ago

Let ViT Speak: Generative Language-Image Pre-training

Ditch the complex multimodal pre-training pipelines: GenLIP proves a simple language modeling objective can effectively align vision encoders with LLMs, achieving strong performance with less data.

Yan Fang, Mengcheng Lan, Zilong Huang +7

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Siyuan Huang +83w ago

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

LVLMs can maintain sharper visual focus during long-form generation by adding a lightweight, learnable memory module that bypasses attention dilution.

Siyuan Huang, Xiaoye Qu, Yafu Li +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Apr 30, 2026

Himanshu Pandey +33w ago

An adaptive wavelet-based PINN for problems with localized high-magnitude source

PINNs get a wavelet makeover, adaptively focusing on high-magnitude source regions and leaving vanilla methods in the dust on PDEs with extreme loss imbalances.

Himanshu Pandey, Himanshu Pandey, Ratikanta Behera +1

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Daniel Waxman +53w ago

Sequential Inference for Gaussian Processes: A Signal Processing Perspective

Signal processing practitioners gain a coherent roadmap for deploying sequential Gaussian Processes in real-world systems, bridging the gap between ML advances and practical application.

Daniel Waxman, Daniel Waxman, Fernando Llorente +3

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Arthur Corrêa +53w ago

FiLMMeD: Feature-wise Linear Modulation for Cross-Problem Multi-Depot Vehicle Routing

A single neural net can now solve 24 different multi-depot vehicle routing problems, thanks to a clever modulation technique that adapts to varying constraints.

Arthur Corrêa, Arthur Corrêa, Paulo Nascimento +3

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Sofía Pérez Casulo +73w ago

A Unified Framework of Hyperbolic Graph Representation Learning Methods

Hyperbolic embeddings are powerful, but a fragmented ecosystem makes them hard to use—this framework finally puts them all in one place.

Sofía Pérez Casulo, Sof'ia P'erez Casulo, Marcelo Fiori +5

Architecture Design (Transformers, SSMs, MoE)Eval Frameworks & Benchmarks Open-Source Models & Weights

Pourya Zamanvaziri +43w ago

ITS-Mina: A Harris Hawks Optimization-Based All-MLP Framework with Iterative Refinement and External Attention for Multivariate Time Series Forecasting

Ditch the Transformers: a cleverly designed all-MLP architecture, ITS-Mina, rivals state-of-the-art time series forecasting while slashing computational costs.

Pourya Zamanvaziri, Amirhossein Sadr, Aida Pakniyat +2

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Alexis Kafantaris3w ago

Attractor FCM

By combining Newton's method with adaptive gradient descent, this attractor FCM sidesteps premature convergence, offering a more robust approach to learning in complex cognitive maps.

Alexis Kafantaris

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

3w ago·also BU, Cornell, NTT Physics and Informatics Laboratories

Physical Foundation Models: Fixed hardware implementations of large-scale neural networks

Forget chasing bigger GPUs – the future of AI inference could be literally baked into the hardware itself, unlocking 1000x gains in energy and speed.

Logan G. Wright, Tianyu Wang, Tatsuhiro Onodera +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Chendi Qian +13w ago

On the Expressive Power of GNNs to Solve Linear SDPs

Standard GNNs can't cut it for solving linear SDPs, but a carefully designed architecture that mimics first-order solver updates can learn to predict solutions and dramatically accelerate convergence.

Chendi Qian, Christopher Morris

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

Piotr Białas +93w ago

Sampling two-dimensional spin systems with transformers

Transformers, typically considered inefficient for spin system sampling, can now outperform CNN-based samplers by generating groups of spins, unlocking larger system sizes and higher effective sample sizes.

Piotr Białas, P. Białas, P. Korcyl +7

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Sivaram Krishnan +63w ago

Toward Scalable SDN for LEO Mega-Constellations: A Graph Learning Approach

Managing thousands of LEO satellites just got easier: a novel graph learning approach slashes network management overhead while boosting forecasting accuracy.

Sivaram Krishnan, S. Krishnan, Bassel Al Homssi +4

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Yonghao Liu +63w ago

Improving Graph Few-shot Learning with Hyperbolic Space and Denoising Diffusion

Hyperbolic embeddings and denoising diffusion can significantly boost few-shot learning on graphs, outperforming existing Euclidean-based methods.

Yonghao Liu, Jialu Sun, Wei Pang +4

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Ta-Yang Wang +33w ago

TypeBandit: Type-Level Context Allocation and Reweighting for Effective Attribute Completion in Heterogeneous Graph Neural Networks

Stop wasting compute on uninformative node types: TypeBandit intelligently allocates sampling resources in heterogeneous graphs, boosting attribute completion accuracy without architectural changes.

Ta-Yang Wang, Rajgopal Kannan, Viktor Prasanna +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Recommendation & Information Retrieval

Habtom Kahsay Gidey +23w ago

A Pattern Language for Resilient Visual Agents

Enterprise AI doesn't have to be a latency nightmare: this pattern language offers a blueprint for integrating VLAs with deterministic control loops.

Habtom Kahsay Gidey, Alexander Lenz, Alois Knoll

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Tool Use & Agents

3w ago·also Kyoto, MBZUAI, RIKEN, UTokyo

Why Mean Pooling Works: Quantifying Second-Order Collapse in Text Embeddings

Despite its simplicity, mean pooling works surprisingly well because modern text encoders concentrate token embeddings, preserving crucial information about their distribution.

Tomomasa Hara, Hiroto Kurita, Masaaki Imaizumi +2

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Recommendation & Information Retrieval

Tsinghua AI3w ago·also MiniCPM-o Team, Tencent AI

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

Forget turn-based interactions: MiniCPM-o 4.5 lets you build AI that sees, hears, speaks, and *reacts* in real-time, all on a device with only 12GB of RAM.

Junbo Cui, Bokai Xu, Chongyi Wang +36

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Open-Source Models & Weights

Varin Sikand +13w ago

Quantum Anonymous Secret Sharing with Permutation Invariant Codes

Sender-anonymity in quantum secret sharing is now possible, thanks to a clever combination of permutation-invariant codes and anonymous quantum transmission.

Varin Sikand, Andrew Nemec

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Federal University of Ceará3w ago·also Federal University of Bahia

An Empirical Evaluation of Code Smell Detection in Angular Applications

Angular apps are riddled with hidden design flaws: this study surfaces 11 common "code smells" and shows how to automatically sniff them out.

Maykon Nunes, E. Coutinho, Emanuel Coutinho +2

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis

Mohd Sameen Chishti +23w ago

Feature-Centric Methodology for Analyzing Cross-Chain NFT Migration Compatibility

Stop costly cross-chain NFT migrations before they start: a new feature-centric methodology predicts which NFT functionalities will break when moving between blockchains like Ethereum and Solana.

Mohd Sameen Chishti, Damilare Peter Oyinloye, Jingyue Li

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Kiel University3w ago

A Monadic Implementation of Functional Logic Programs

M. Hanus, Michael Hanus, Kai-Oliver Prott +1

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Natural Language Processing

Nuria Alabau-Bosque +83w ago·also Universitat de València

Parameter-Efficient Architectural Modifications for Translation-Invariant CNNs

CNNs are surprisingly fragile to even single-pixel shifts, but strategically placed global average pooling can fix this with a 98% parameter reduction and no accuracy loss.

Nuria Alabau-Bosque, J. Vila-Tomás, Jorge Vila-Tomas +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Kaixiang Shu3w ago

Adjoint Inversion Reveals Holographic Superposition and Destructive Interference in CNN Classifiers

CNN classifiers don't just select from cleaned features, they actively cancel out shared background information via destructive interference, rewriting our understanding of how these networks actually "see".

Kaixiang Shu

Architecture Design (Transformers, SSMs, MoE)Computer Vision Interpretability & Mechanistic Interp

Ajou Univerity3w ago·also GenGenAI, SNU, UT Austin

Sparse-View 3D Gaussian Splatting in the Wild

Achieve high-fidelity 3D rendering from sparse, unconstrained real-world images by intelligently synthesizing novel views with diffusion models and Gaussian replication.

Wongi Park, Jordan A. James, Myeongseok Nam +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Tsinghua AI3w ago·also Microsoft Research

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Forget fully connected relation graphs: CasLayout's sparse relation modeling unlocks enhanced controllability and realism in 3D indoor scene synthesis.

Yingrui Wu, Youkang Kong, Mingyang Zhao +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Tsinghua AI3w ago·also Microsoft Research

SQuadGen: Generating Simple Quad Layouts via Chart Distance Fields

Simple, artist-friendly quad meshes can now be automatically generated on 3D shapes using a diffusion model trained on a continuous surface representation, sidestepping the complexity of discrete mesh optimization.

Youkang Kong, Yang Liu, Yang Liu +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Nankai University3w ago·also Huawei

YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

Achieve up to 2.5X faster video object removal by focusing DiT computations only on the essential tokens dictated by the mask.

Chenyang Wu, Lina Lei, Fan Li +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

Mohammad Amin Mirzaee +43w ago

Function-based Parametric Co-Design Optimization of Dexterous Hands

Unlock the next level of robotic dexterity: this framework lets you co-design robotic hands by optimizing everything from palm structure to fingertip surface curvature.

Mohammad Amin Mirzaee, M. Mirzaee, Harsh Gupta +2

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI

3w ago·also RUC

Akita: A High Usability Simulation Framework for Computer Architecture

Frustrated with clunky architecture simulators? Akita offers a breath of fresh air with its focus on developer experience, promising faster prototyping and experimentation.

Sabila Al Jannat, Sabila Al Jannat, Ying Li +12

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Muhammad Ihsan Al Hafiz +33w ago

NeuroRing: Scaling Spiking Neural Networks via Multi-FPGA Bidirectional Ring Topologies and Stream-Dataflow Architectures

NeuroRing achieves faster-than-real-time execution of a full-scale cortical microcircuit simulation on FPGAs, proving that scalable, energy-efficient SNN hardware is within reach.

Muhammad Ihsan Al Hafiz, Muhammad Ihsan Al Hafiz, Artur Podobas +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

3w ago·also ANL

Exploring Sparse Matrix Multiplication Kernels on the Cerebras CS-3

Cerebras CS-3 can deliver 100x speedups over CPU for sparse matrix multiplication at 90% sparsity, but surprisingly, becomes *slower* than CPU beyond 99% sparsity.

Milan Shah, Sheng Di, Michela Becchi

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Jin Xin Ng +103w ago

Affinity Tailor: Dynamic Locality-Aware Scheduling at Scale

Schedulers can boost throughput by 12% on chiplet-based systems simply by treating spatial locality as a first-class objective, even if it means sacrificing work-conservation.

Jin Xin Ng, Ori Livneh, Richard O'Grady +8

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Behnaz Ranjbar +13w ago

AnTi-MiCS: Analytical Framework for Bounding Time in Embedded Mixed-Criticality Systems

Balancing processor utilization and Quality-of-Service in mixed-criticality systems just got easier with AnTi-MiCS and MulTi-MiCS, which automatically determine optimal low WCETs and improve QoS by up to 30%.

Behnaz Ranjbar, Akash Kumar

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

3w ago·also Samsung Electronics

AME-PIM: Can Memory be Your Next Tensor Accelerator?

HBM-PIM can achieve impressive matrix multiplication throughput (14.9 GFLOP/s) using a novel reduction-free outer-product dataflow, even without native reduction support.

Emanuele Venieri, Simone Manoni, Alberto Florian +3

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Yan-Cheng Guo +23w ago

RCW-CIM: A Digital CIM-based LLM Accelerator with Read-Compute/Write

Forget waiting – this new CIM architecture slashes LLM weight update latency by up to 87%, unlocking faster prefill and decoding.

Yan-Cheng Guo, Tian-Sheuan Chang, Jian-Wei Su

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Zi-Wei Lin +23w ago

VitaLLM: A Versatile, Ultra-Compact Ternary LLM Accelerator with Dependency-Aware Scheduling

Ternary LLMs can achieve impressive throughput and energy efficiency on edge devices, thanks to VitaLLM's co-designed hardware acceleration that overcomes workload imbalance and data dependency challenges.

Zi-Wei Lin, Zimiao Lin, Tian-Sheuan Chang

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Ali Shibli +33w ago·also KTH

Noise2Map: End-to-End Diffusion Model for Semantic Segmentation and Change Detection

Ditch the costly sampling: Noise2Map turns diffusion models into fast, end-to-end semantic segmentation and change detection machines by directly predicting maps from noise.

Ali Shibli, A. Nascetti, Andrea Nascetti +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Shuokun Cheng +33w ago

UHR-Net: An Uncertainty-Aware Hypergraph Refinement Network for Medical Image Segmentation

By explicitly modeling uncertainty in hypergraph refinement, UHR-Net achieves more accurate segmentation of challenging lesions in medical images.

Shuokun Cheng, Jinghao Shi, Jinghao Shi +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Scientific Discovery & Drug Design

Thomas Jefferson High School for Science and Technology3w ago·also UVA

Mapping the Phase Diagram of the Vicsek Model with Machine Learning

Machine learning can turn sparse simulation data into a complete phase diagram for collective motion models, revealing nuanced phase boundaries.

Grace T. Bai, Grace T. Bai, Brandon B. Le +1

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Scientific Discovery & Drug Design

3w ago·also D pose data—and proposed A, OT does not treat temporally contiguous

Action Motifs: Self-Supervised Hierarchical Representation of Human Body Movements

Discovering reusable, semantic "Action Motifs" from human movement data unlocks significant gains in action recognition, motion prediction, and interpolation.

Genki Kinoshita, Genki Kinoshita, Shu Nakamura +9

Architecture Design (Transformers, SSMs, MoE)Computer Vision Robotics & Embodied AI

3w ago·also Bristol, Leiden

MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Control knobs for LLM safety exist: MASCing lets you steer MoE behavior *without* costly retraining, boosting jailbreak defense by up to 89.2% and adult content generation control by up to 93.0%.

Jona te Lintelo, Lichao Wu, Marina Krvcek +5

Architecture Design (Transformers, SSMs, MoE)Red-Teaming & Adversarial Robustness

Koç University3w ago·also Hacettepe University

Beyond Gaussian Bottlenecks: Topologically Aligned Encoding of Vision-Transformer Feature Spaces

Hyperspherical latent spaces unlock better 3D scene understanding from vision transformers, especially when bandwidth is constrained.

Andrew Bond, Andrew Bond, Ilkin Umut Melanlioglu +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision World Models & Planning

Junqi Gao +93w ago

Auto-FlexSwitch: Efficient Dynamic Model Merging via Learnable Task Vector Compression

Forget storing full task-specific models – Auto-FlexSwitch compresses the knowledge into tiny, dynamically assembled task vectors, slashing storage costs without sacrificing accuracy.

Junqi Gao, Junqi Gao, Dazhi Zhang +7

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Akhil Gupta +33w ago

Neural Aided Kalman Filtering for UAV State Estimation in Degraded Sensing Environments

By fusing Bayesian neural networks with Kalman filtering, this work achieves more accurate and robust UAV state estimation than traditional methods in noisy, sparse sensing environments.

Akhil Gupta, Akhil Gupta, Erhan Guven +1

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Training Efficiency & Optimization

Stanford HAI3w ago·also Harvard, Northeastern, UCL

Do Sparse Autoencoders Capture Concept Manifolds?

Sparse autoencoders, despite their popularity for extracting interpretable features, often fail to capture the underlying manifold structure of concepts, instead fragmenting them across multiple, diluted features.

Usha Bhalla, Usha Bhalla, Thomas Fel +21

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp

Sigma Jahan +63w ago

DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures

Pinpointing the root cause of transformer failures just got a whole lot easier: DEFault++ can detect, categorize, and diagnose faults with high accuracy, even down to specific mechanisms.

Sigma Jahan, Sigma Jahan, Saurabh Singh Rajput +4

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp

Marc Dymetman3w ago

Exponential families from a single KL identity

A single KL identity unlocks a surprisingly simple and unified derivation of core results for exponential families, streamlining the theoretical foundations of variational inference, entropy-regularized RL, and RLHF.

Marc Dymetman

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Yanwu Gu +23w ago

Prediction-powered Inference by Mixture of Experts

Combining diverse AI prediction tools as a Mixture of Experts slashes variance in semi-supervised inference, outperforming standard Prediction-Powered Inference.

Yanwu Gu, Linglong Kong, Dong Xia

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Kathrin Korte +33w ago

When Does Structure Matter in Continual Learning? Dimensionality Controls When Modularity Shapes Representational Geometry

Modular architectures in continual learning only matter when representational dimensionality is low, revealing that dimensionality acts as a key control knob for the benefits of structural separation.

Kathrin Korte, Joachim Winter Pedersen, Eleni Nisioti +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Microsoft Research3w ago

TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

TwinGate stops jailbreaks by tracking malicious intent across anonymized, interleaved queries with minimal overhead, something previous defenses couldn't do.

Bowen Sun, Chaozhuo Li, Yaodong Yang +2

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Red-Teaming & Adversarial Robustness

Zhenzhou Jin +33w ago

Statistical Channel Fingerprint Construction for Massive MIMO: A Unified Tensor Learning Framework

Ditch the encoder-decoder: LPWTNet's closed-form Laplacian pyramid decomposition offers efficient inference for statistical channel fingerprint construction in massive MIMO systems.

Zhenzhou Jin, Li You, Xiang-Gen Xia +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Christian Klötergens +33w ago

Probabilistic Circuits for Irregular Multivariate Time Series Forecasting

Forget unreliable forecasts: CircuITS offers structurally guaranteed valid joint distributions for irregular multivariate time series, outperforming existing methods in joint and marginal density estimation.

Christian Klötergens, Christian Klotergens, Vijaya Krishna Yalavarthi +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

3w ago

Hyper-Dimensional Fingerprints as Molecular Representations

Ditch the hash: training-free Hyper-Dimensional Fingerprints (HDF) unlock molecular representations with superior structural fidelity and property prediction compared to conventional methods, even at low dimensions.

Jonas Teufel, Luca Torresi, Andr'e Eberhard +2

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

Ingonyama3w ago

Why Self-Supervised Encoders Want to Be Normal

Self-supervised encoders implicitly perform soft clustering on a "predictive manifold" in probability space, and this geometric perspective yields a practical Gaussian regularizer (SIGReg) competitive with variational IB.

Yuval Domb

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Mehryar Mohri +23w ago

Linear-Core Surrogates: Smooth Loss Functions with Linear Rates for Classification and Structured Prediction

Get the best of both worlds: Linear-Core Surrogates offer the fast optimization of smooth losses and the statistical efficiency of margin-based losses, without sacrificing differentiability.

Mehryar Mohri, M. Mohri, Yutao Zhong

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Al Zadid Sultan Bin Habib +33w ago

ZAYAN: Disentangled Contrastive Transformer for Tabular Remote Sensing Data

Feature-level contrastive learning with dynamic masking unlocks superior performance on tabular remote sensing data, even when labels are scarce.

Al Zadid Sultan Bin Habib, Tanpia Tasnim, Md. Ekramul Islam +1

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Scientific Discovery & Drug Design

Stanford HAI3w ago

ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space

Forget noisy starts – ABC diffusion models leverage the inherent structure of continuous processes, generating future states from already-close previous states for more realistic dynamics.

Gabe Guo, Gabriel Guo, Thanawat Sornwanee +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Lincan Li +33w ago

LLM as Clinical Graph Structure Refiner: Enhancing Representation Learning in EEG Seizure Diagnosis

LLMs can prune noisy edges in EEG graphs, leading to more accurate and interpretable seizure detection.

Lincan Li, Lincan Li, Zheng Chen +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Scientific Discovery & Drug Design

Vishnuprasadh Kumaravelu +33w ago·also IIT

Post-Optimization Adaptive Rank Allocation for LoRA

Get 4x-10x smaller LoRA models for free with a simple post-processing step that doesn't hurt performance.

Vishnuprasadh Kumaravelu, Sunil Gupta, P. Srijith +1

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Yifang Qin +43w ago

Generative structure search for efficient and diverse discovery of molecular and crystal structures

Discovering new molecules and materials just got 10x cheaper, thanks to a hybrid AI method that blends generative models with physics-based search.

Yifang Qin, Yu Shi, Junfu Tan +2

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Wei Li +63w ago·also Guangdong AIHISUN Technology Co.

Robust Lightweight Crack Classification for Real-Time UAV Bridge Inspection

You can now get real-time (825 FPS) crack detection on UAVs without sacrificing accuracy, thanks to a new attention-enhanced lightweight CNN.

Wei Li, Haisheng Li, Weijie Li +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

Emı́lia Garcia-Casademont +13w ago

Ease of dependency distance minimization in star-like structures

Turns out, arranging words to minimize syntactic dependency distance in sentences with star-like structures is easier than we thought, suggesting other factors drive word order.

Emı́lia Garcia-Casademont, Ramon Ferrer-i-Cancho

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Sumatra Institute of Technology3w ago

Sentiment Analysis of AI Adoption in Indonesian Higher Education Using Machine Learning and Transformer-Based Models

Transformer-based models aren't always the only answer: SVMs offer a surprisingly competitive and efficient alternative for sentiment analysis, even when contextual understanding is key.

Happy Syahrul Ramadhan, Ahmad Sahidin Akbar, Karin Yehezkiel Sinaga +4

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Arnaud Valence3w ago

SBN Explorer: An Empirical Study of Cryptographic Boolean Networks

The best cryptographic Boolean networks aren't defined by a single architecture, but by surprisingly sparse and synergistic combinations of structural constraints.

Arnaud Valence

Architecture Design (Transformers, SSMs, MoE)

Department of Telematic Engineering3w ago

Variational and Majorization Principles in Lattice Reduction

Lattice reduction, long a dark art, can now be understood as minimizing variance in a Gram-Schmidt profile, leading to new, efficient heuristics.

Javier Blanco-Romero, Florina Almenares Mendoza

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Amazon Science3w ago

One Size Fits All? An Empirical Comparison of ADR Templates regarding Comprehension, Usability, and Ease of Adoption

Turns out, the best template for documenting architectural decisions depends on whether you value conciseness (Nygard) or structural detail (MADR).

F. Nogueira, Fernando Nogueira, Nabson Silva +1

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Natural Language Processing

Furkan Kınlı +13w ago

Beyond Pixel Fidelity: Minimizing Perceptual Distortion and Color Bias in Night Photography Rendering

Night photography can now look stunningly realistic, thanks to a new rendering technique that beats existing methods on perceptual quality and color accuracy.

Furkan Kınlı, Furkan Kınlı

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Chialoon Cheng +73w ago

3D Reconstruction Techniques in the Manufacturing Domain: Applications, Research Opportunities and Use Cases

Despite advances in deep learning, manufacturing-focused 3D reconstruction still struggles with reflective surfaces and dynamic environments, highlighting the need for robust hybrid systems.

Chialoon Cheng, K. Liu, Kaijun liu +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Robotics & Embodied AI

Meta AI3w ago·also Oxford

3D-ReGen: A Unified 3D Geometry Regeneration Framework

Controllable 3D generation takes a leap forward with 3D-ReGen, a framework that leverages an initial 3D shape for tasks like enhancement and editing, outperforming existing methods.

Geon Yeong Park, Geon Yeong Park, Roman Shapovalov +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Yubo Dong +33w ago

RayFormer: Modeling Inter- and Intra-Ray Similarity for NeRF-Based Video Snapshot Compressive Imaging

NeRFs get a boost in video reconstruction quality by explicitly modeling inter- and intra-ray similarities with a novel transformer architecture.

Yubo Dong, Danhua Liu, Anqi Li +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Dahua Gao +63w ago

FUN: A Focal U-Net Combining Reconstruction and Object Detection for Snapshot Spectral Imaging

Ditch the post-capture processing bottleneck: FUN achieves real-time hyperspectral object detection by jointly learning reconstruction and detection in a single, efficient network.

Dahua Gao, Yubo Dong, Anqi Li +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision

3w ago·also CAS, vivo BlueImage Lab

VeraRetouch: A Lightweight Fully Differentiable Framework for Multi-Task Reasoning Photo Retouching

Ditch the clunky external tools: VeraRetouch slashes model size and unlocks end-to-end training for photo retouching with a fully differentiable architecture.

Yihong Guo, Youwei Lyu, Jiajun Tang +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Tengya Zhang +33w ago·also Mississippi State University, OUC

Spectral Dynamic Attention Network for Hyperspectral Image Super-Resolution

Sparsifying attention maps based on channel-wise correlations unlocks state-of-the-art performance in hyperspectral image super-resolution while maintaining competitive efficiency.

Tengya Zhang, Lin Qi, Junyu Dong +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Hira Saleem +33w ago·also UNSW

PINN-Cast: Exploring the Role of Continuous-Depth NODE in Transformers and Physics Informed Loss as Soft Physical Constraints in Short-term Weather Forecasting

Continuous-depth transformers, augmented with physics-informed loss, can significantly improve short-term weather forecasting, suggesting a promising path for hybrid physics-aware AI models.

Hira Saleem, Flora D. Salim, Flora Salim +1

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Tim Missal +113w ago

RopeDreamer: A Kinematic Recurrent State Space Model for Dynamics of Flexible Deformable Linear Objects

By representing deformable linear objects as a chain of relative rotations, RopeDreamer achieves state-of-the-art prediction accuracy and topological consistency in long-horizon manipulation tasks.

Tim Missal, Tim Missal, Lucas Domingues +9

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI World Models & Planning

Apr 29, 2026

3w ago

Stochastic Entanglement of Deterministic Origami Tentacles For Universal Robotic Gripping

Origami tentacles that deterministically coil and stochastically entangle offer a surprisingly simple and robust solution for universal robotic gripping.

Alec Boron, Bokun Zheng, Ziyang Zhou +2

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI

Ahan Gupta +43w ago·also Snowflake

AutoSP: Unlocking Long-Context LLM Training Via Compiler-Based Sequence Parallelism

Training LLMs on ultra-long contexts just got a whole lot easier: AutoSP automates sequence parallelism and activation checkpointing, boosting context length by up to 2.7x with negligible throughput cost.

Ahan Gupta, Zhihao Wang, Neel Dani +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

3w ago

Adaptive Self-Organization in Anonymous Dynamic Networks

Even with adversarial network changes and only local signals, surprisingly simple distributed algorithms can enable dynamic networks to self-organize and adapt to changing environmental goals.

Garrett Parzych, Joshua J. Daymude

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

3w ago

FaaSMoE: A Serverless Framework for Multi-Tenant Mixture-of-Experts Serving

Slash MoE serving costs by two-thirds with FaaSMoE, a serverless architecture that dynamically scales experts on demand.

Minghe Wang, Trever Schirmer, Mohammadreza Malekabbasi +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Hyunsung Yoon +33w ago

Sparse-on-Dense: Area and Energy-Efficient Computing of Sparse Neural Networks on Dense Matrix Multiplication Accelerators

Dense matrix multiplication accelerators can surprisingly outperform dedicated sparse accelerators for sparse neural networks, offering better area and energy efficiency.

Hyunsung Yoon, Sungju Ryu, Sungju Ryu +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Barcelona Supercomputing Center (BSC)3w ago

Verification and Validation (V&V)-in-the-Loop for RISC-V Design: The Holistic Vision of BZL

A holistic, industrial-grade V&V loop promises to accelerate and de-risk RISC-V chip design by integrating RTL validation, FPGA-based system-level testing, and continuous integration.

Sajjad Ahmed, Alexander Kropotov, Roberto Ignacio Genovese +21

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Alexander Kropotov +23w ago

EMiX: Emulating Beyond Single-FPGA Limits

Emulating massive multi-core systems just got easier: EMiX lets you scale RISC-V emulation across multiple FPGAs without rewriting your RTL.

Alexander Kropotov, Miquel Moreto, Behzad Salami

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Instituto de Física3w ago

Towards Accelerated SCF Workflows with Equivariant Density-Matrix Learning and Analytic Refinement

Skip the SCF convergence grind: a physically-constrained equivariant neural net slashes the number of iterations needed by up to 81% while also predicting accurate molecular properties in a single shot.

Zuriel Y. Yescas-Ramos, Andrés Álvarez-García, Huziel E. Sauceda

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

3w ago·also ANL

Experimentally Accurate Graph Neural Network Predictions of Core-Electron Binding Energies

GNNs can predict core-electron binding energies in organic molecules with surprising accuracy (0.33 eV error), offering a computationally efficient alternative to expensive quantum chemistry calculations.

Adam E. A. Fouda, Joshua Zhou, Rodrigo Ferreira +10

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

DAMO3w ago·also Beihang, ZJU

Advancing multi-site emission control: A physics-informed transfer learning framework with mixture of experts for carbon-pollutant synergy

Transfer learning can unlock scalable emission control across diverse waste incineration plants by learning transferable system-level structures that capture physical constraints, operating-regime heterogeneity, and carbon-pollutant coupling.

Yuxuan Ying, Hanqing Yang, Kaige Wang +3

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Federal University of Bahia3w ago·also Western University

A Gated Hybrid Contrastive Collaborative Filtering Recommendation

Injecting review semantics into collaborative filtering via adaptive gating and contrastive learning substantially boosts top-N recommendation accuracy, outperforming existing review-aware methods.

Eduardo Ferreira da Silva, Mayki dos Santos Oliveira, Joel Machado Pires +6

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Recommendation & Information Retrieval

NTT FACILITIES3w ago·also INC. Tokyo, Tokyo Metropolitan University

Privacy-Preserving Clothing Classification using Vision Transformer for Thermal Comfort Estimation

Encrypting images no longer has to mean sacrificing accuracy in clothing classification tasks, thanks to a clever Vision Transformer approach.

Tatsuya Chuman, Yousuke Udagawa, Hitoshi Kiya

Architecture Design (Transformers, SSMs, MoE)Computer Vision

3w ago·also IIT Bombay, Rutgers

HQ-UNet: A Hybrid Quantum-Classical U-Net with a Quantum Bottleneck for Remote Sensing Image Segmentation

Quantum circuits can boost classical U-Net performance in remote sensing image segmentation, even with shallow, parameter-efficient designs.

Md Aminur Hossain, Ayush V. Patel, Ikshwaku Vanani +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

D sequence? Across the small3w ago·also BAIR, Mila, ×4, UC Santa Cruz +1

When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks

LLMs struggle with structured 2D tasks when inputs are serialized into 1D, revealing a surprising performance gap compared to vision-augmented models that directly process the 2D layout.

Chung-Hsiang Lo, Lu Li, Diji Yang +4

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Reasoning & Chain-of-Thought

3w ago·also NII

Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level Separation

Hybrid-thinking LLMs can be dramatically improved by simply separating the feed-forward pathways for reasoning and non-reasoning modes, leading to less leakage and better accuracy.

Shouren Wang, Wang Yang, Chuang Ma +7

Architecture Design (Transformers, SSMs, MoE)Reasoning & Chain-of-Thought

3w ago

Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Shrinking diffusion LLMs by distilling across different architectures can yield surprisingly strong performance, even boosting code generation scores by 16 points on HumanEval.

Gongbo Zhang, Wen Wang, Ye Tian +1

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Apple ML3w ago·also CMU ML, UCSB

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Forget coarse sequence-level hacks: LenVM lets you precisely dial in token generation length, boosting a 7B model's length accuracy from 30.9 to 64.8 and crushing closed-source rivals.

Zhen Zhang, Changyi Yang, Zijie Xia +13

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Natural Language Processing

Vijay Sadashivaiah +33w ago

Better Models, Faster Training: Sigmoid Attention for single-cell Foundation Models

Ditch softmax attention for sigmoid: it unlocks 25% better cell-type separation, 10% faster training, and rock-solid stability for biological foundation models.

Vijay Sadashivaiah, Georgios Dasoulas, Judith Mueller +1

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Yiqi Liu +43w ago

Exploring the Efficiency of 3D-Stacked AI Chip Architecture for LLM Inference with Voxel

Forget brute-force scaling: smarter tile and tensor mapping on 3D-stacked chips could unlock massive LLM inference gains.

Yiqi Liu, Noelle Crawford, Michael Wang +2

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Bodon Jeong +83w ago

DUAL-BLADE: Dual-Path NVMe-Direct KV-Cache Offloading for Edge LLM Inference

Edge LLM inference gets a serious speed boost: DUAL-BLADE's dual-path KV cache slashes latency by up to 42% and doubles SSD utilization.

Bodon Jeong, Bodon Jeong, Hongsu Byun +6

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

ETH3w ago·also ANU, Sydney

FloatSOM: GPU-Accelerated, Distributed, Topology-Flexible Self-Organizing Maps

Training a 1024-node SOM on a billion-sample dataset in just over 6 minutes shatters previous scalability limits, thanks to a novel framework that leverages multi-GPU execution, out-of-memory streaming, and flexible topologies.

Tony Xu, Sarah Klamt, Katherine Turner +3

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Search

Architecture Design (Transformers, SSMs, MoE) - Weekly Roundup

Selected Labs publishing this week

Top Papers

All Papers (100)