March 18 – March 25, 2026

Architecture Design (Transformers, SSMs, MoE) - Weekly Roundup

100 papers published across 4 labs.

2% acceleration

Selected Labs publishing this week

Tsinghua AI1 Google Research1 DeepMind1 CMU ML1

Top Papers

Mar 18, 2026

2w ago

Requirements volatility in software architecture design: an exploratory case study

Requirements volatility doesn't just delay projects; it directly undermines software architecture, leading to technical debt and scheduling nightmares.

Sanja Aaramaa, Sandun Dasanayake, M. Oivo +4

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis

Mar 25, 2026

Yu-Hao Yang +81w ago

GenMask: Adapting DiT for Segmentation via Direct Mask Generation

Ditch the feature extraction pipeline: GenMask directly generates segmentation masks with a diffusion transformer, achieving SOTA results by harmonizing mask and image generation in a single model.

Yu-Hao Yang, Xianwei Zhuang, Yuxuan Cai +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Yihan Wang +11w ago

WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

Cost volumes might be overkill: WAFT-Stereo proves you can ditch them for a warping-based approach and still dominate stereo matching benchmarks with significantly improved efficiency.

Yihan Wang, Jia Deng

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Mar 20, 2026

cSuayp Talha Kocabay +11w ago

Diffutron: A Masked Diffusion Language Model for Turkish Language

A compact masked diffusion model can rival multi-billion parameter models in a morphologically rich language like Turkish, challenging the assumption that bigger is always better.

cSuayp Talha Kocabay, Talha Ruzgar Akkucs

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Mar 19, 2026

Yue Gong +101w ago

RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing

Representation-Pivoted Autoencoders enable diffusion models to generate and edit images with higher fidelity by learning a compressed latent space that preserves the semantics of pre-trained visual representations.

Yue Gong, Hongyu Li, Shanyuan Liu +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision

All Papers (100)

Mar 25, 2026

Yu-Hao Yang +81w ago

GenMask: Adapting DiT for Segmentation via Direct Mask Generation

Ditch the feature extraction pipeline: GenMask directly generates segmentation masks with a diffusion transformer, achieving SOTA results by harmonizing mask and image generation in a single model.

Yu-Hao Yang, Xianwei Zhuang, Yuxuan Cai +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Yihan Wang +11w ago

WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

Cost volumes might be overkill: WAFT-Stereo proves you can ditch them for a warping-based approach and still dominate stereo matching benchmarks with significantly improved efficiency.

Yihan Wang, Jia Deng

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Mar 20, 2026

cSuayp Talha Kocabay +11w ago

Diffutron: A Masked Diffusion Language Model for Turkish Language

A compact masked diffusion model can rival multi-billion parameter models in a morphologically rich language like Turkish, challenging the assumption that bigger is always better.

cSuayp Talha Kocabay, Talha Ruzgar Akkucs

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Mar 19, 2026

Yue Gong +101w ago

RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing

Yue Gong, Hongyu Li, Shanyuan Liu +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Lei Gao +61w ago

Accurate and Efficient Multi-Channel Time Series Forecasting via Sparse Attention Mechanism

Achieve state-of-the-art time series forecasting accuracy with significantly reduced memory usage and faster inference by using a sparse attention mechanism that fuses multi-modal embeddings.

Lei Gao, He Bao, Hengda Bao +4

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

1w ago

Reconstruction Matters: Learning Geometry-Aligned BEV Representation through 3D Gaussian Splatting

Explicitly reconstructing 3D scenes with Gaussian Splatting unlocks state-of-the-art BEV perception, proving that geometric understanding is key to accurate spatial reasoning.

Yiren Lu, Xin Ye, Burhaneddin Yaman +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Robotics & Embodied AI

Vsevolod Skorokhodov +41w ago·also Schindler

SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction

Fine-tuning a visual geometry transformer with SEAR unlocks surprisingly accurate RGB-Thermal 3D reconstruction, even surpassing SOTA methods despite training on significantly less multimodal data.

Vsevolod Skorokhodov, Chenghao Xu, Shuo Sun +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

J. Mueller +41w ago

From ex(p) to poly: Gaussian Splatting with Polynomial Kernels

Unlock 4-15% faster Gaussian Splatting without retraining your existing datasets by swapping in a polynomial kernel.

J. Mueller, Joerg H. Mueller, Martin Winter +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

1w ago

OCP: Orthogonal Constrained Projection for Sparse Scaling in Industrial Commodity Recommendation

Orthogonal constraints can rescue sparse embeddings in recommender systems from representation collapse, unlocking significant performance gains in large-scale industrial deployments.

Chengqi Sun, Chen Sun, Beiling Xu +10

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval Training Efficiency & Optimization

Zou Qiang +11w ago

Box Maze: A Process-Control Architecture for Reliable LLM Reasoning

LLMs can maintain reasoning boundaries with >99% reliability under adversarial attacks when equipped with explicit process-control layers, a massive improvement over standard RLHF.

Zou Qiang, Zou Qiang

Architecture Design (Transformers, SSMs, MoE)Reasoning & Chain-of-Thought Red-Teaming & Adversarial Robustness

Zikang Ding +61w ago

UGID: Unified Graph Isomorphism for Debiasing Large Language Models

By enforcing graph isomorphism across counterfactual inputs, UGID reveals that debiasing LLMs can be achieved by directly manipulating internal representations and attention mechanisms.

Zikang Ding, Junchi Yao, Junhao Li +4

Architecture Design (Transformers, SSMs, MoE)Constitutional AI & AI Ethics Natural Language Processing

Zuher Jahshan +21w ago

MANAR: Memory-augmented Attention with Navigational Abstract Conceptual Representation

By mimicking the brain's "global workspace," MANAR achieves linear-time attention without sacrificing performance, offering a drop-in replacement for standard attention that's both faster and potentially more creative.

Zuher Jahshan, Ben Ben Ishay, Leonid Yavits

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

1w ago

Why Better Cross-Lingual Alignment Fails for Better Cross-Lingual Transfer: Case of Encoders

Cross-lingual alignment can actually *hurt* transfer learning performance because aligning embeddings doesn't necessarily help with the downstream task.

Yana Veitsman, Yihong Liu, Hinrich Schütze

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Ye Kyaw Thu +51w ago

myMNIST: Benchmark of PETNN, KAN, and Classical Deep Learning Models for Burmese Handwritten Digit Recognition

CNNs still reign supreme in Burmese handwritten digit recognition, but physics-inspired PETNNs are hot on their heels, outperforming Transformers and KANs.

Ye Kyaw Thu, Ye Kyaw Thu, Thazin Myint Oo +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Eval Frameworks & Benchmarks

Aram Abrahamyan +11w ago

A Comparative Empirical Study of Catastrophic Forgetting Mitigation in Sequential Task Adaptation for Continual Natural Language Processing Systems

Naive fine-tuning leads to catastrophic forgetting, but combining replay-based and parameter isolation strategies can actually *improve* performance over joint training in continual learning for intent classification.

Aram Abrahamyan, Sachin Kumar

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Telang Xu +31w ago

FUMO: Prior-Modulated Diffusion for Single Image Reflection Removal

Achieve state-of-the-art single image reflection removal by explicitly guiding a diffusion model with spatial intensity and high-frequency priors derived directly from the input image.

Telang Xu, Chaoyang Zhang, Guangtao Zhai +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Minsoo Cheong +71w ago

EntropyCache: Decoded Token Entropy Guided KV Caching for Diffusion Language Models

Diffusion language models can achieve up to 26x inference speedups with almost no accuracy loss, thanks to a clever entropy-based KV caching strategy that avoids costly full forward passes.

Minsoo Cheong, Minsoo Cheong, Donghyun Son +5

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

1w ago·also Shenzhen Loop Area Institude

UT-ACA: Uncertainty-Triggered Adaptive Context Allocation for Long-Context Inference

LLMs can maintain generation quality in long-context scenarios while using significantly less context, simply by adaptively allocating context based on uncertainty.

Lang Zhou, Shuxuan Li, Zhuohao Li +4

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Natural Language Processing

Tsinghua AI1w ago·also IEEE

ATG-MoE: Autoregressive trajectory generation with mixture-of-experts for assembly skill learning

Forget brittle, hand-coded robot assembly routines: ATG-MoE learns complex, multi-skill manipulation directly from visual and language inputs, achieving impressive success rates in both simulation and real-world industrial tasks.

Weihang Huang, Chaoran Zhang, Xiao Deng +6

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Tool Use & Agents

Junyi Yang1w ago

TurboMem: High-Performance Lock-Free Memory Pool with Transparent Huge Page Auto-Merging for DPDK

Ditch manual huge page configuration: TurboMem's lock-free design and transparent huge page auto-merging can boost packet throughput by up to 28% in DPDK.

Junyi Yang

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

1w ago·also Fudan, Jiangxing Intelligence Inc., Shenzhen University

Rethink Web Service Resilience in Space: A Radiation-Aware and Sustainable Transmission Solution

Current methods to protect satellites from radiation drain batteries and interrupt service, but a new routing protocol can minimize both.

Long Chen, Long Chen, Hao Fang +11

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

1w ago

Mitigating the Bandwidth Wall via Data-Streaming System-Accelerator Co-Design

Forget massive SRAMs: this work shows that clever data streaming and compute/transfer overlap can yield 22x speedups for transformer inference, even with standard PCIe interconnects.

Qunyou Liu, Marina Zapater, David Atienza

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Google Research1w ago·also DeepMind

Seasoning Generative Models for a Generalization Aftertaste

Refining generative models with discriminator guidance provably improves generalization, offering a theoretical justification for techniques like score-based diffusion.

Hisham Husain, Valentin De Bortoli, Richard Nock

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Riccardo Saporiti +21w ago

Neural Galerkin Normalizing Flow for Transition Probability Density Functions of Diffusion Models

Unlock faster diffusion model analysis: Neural Galerkin Normalizing Flows offer a cost-effective surrogate for transition probability density functions, outperforming direct PDE solving.

Riccardo Saporiti, R. Saporiti, Fabio Nobile

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Zhilin Guo +251w ago

Matryoshka Gaussian Splatting

Get continuous level-of-detail rendering in 3D Gaussian Splatting without sacrificing top-end quality – no architectural changes needed.

Zhilin Guo, Zhilin Guo, Boqiao Zhang +23

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization+1

Yuyang Liu1w ago

cuGenOpt: A GPU-Accelerated General-Purpose Metaheuristic Framework for Combinatorial Optimization

LLMs can now write the code to solve your combinatorial optimization problems, thanks to a new GPU-accelerated framework accessible through a pure-Python API.

Yuyang Liu

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Amanda A. Howard +41w ago

SINDy-KANs: Sparse identification of non-linear dynamics through Kolmogorov-Arnold networks

Unlock the power of interpretable AI: SINDy-KANs distills complex neural networks into sparse equations, revealing the underlying dynamics of systems.

Amanda A. Howard, Nicholas Zolman, Bruno Jacob +2

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Scientific Discovery & Drug Design

Jiangtao Luo +71w ago

iSatCR: Graph-Empowered Joint Onboard Computing and Routing for LEO Data Delivery

By jointly optimizing onboard computing and data routing, iSatCR slashes data transmission needs in LEO satellite networks, outperforming traditional routing-only approaches, especially under heavy load.

Jiangtao Luo, Jiangtao Luo, Bingbing Xu +5

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware

Danaé Broustail +61w ago

LuMamba: Latent Unified Mamba for Electrode Topology-Invariant and Efficient EEG Modeling

Foundation models for EEG can now be 377x more efficient and handle 12x longer sequences, thanks to a novel Mamba-based architecture that also cracks the code for handling variable electrode setups.

Danaé Broustail, Dana'e Broustail, Anna Tegon +4

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

1w ago·also Institute of Software

Confidential Databases Without Cryptographic Mappings

Confidential databases can be 78x faster by ditching crypto in the query path.

Wenxuan Huang, Zhanbo Wang, Mingyu Li

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Jonathan Cook +31w ago

Impact of Differentials in SIMON32 Algorithm for Lightweight Security of Internet of Things

Unlocking new high-probability differentials in SIMON32 cracks open avenues for more efficient cryptanalysis, pushing past current state-of-the-art round limits.

Jonathan Cook, S. U. Rehman, M. A. Khan +1

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization

Vincenzo De Martino +31w ago

Green Architectural Tactics in ML-enabled Systems: An LLM-based Repository Mining Study

LLMs can automatically discover novel, practical green AI tactics directly from code repositories, revealing hidden strategies for sustainable ML.

Vincenzo De Martino, Silverio Mart'inez-Fern'andez, Silverio Martínez-Fernández +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Ilia Sudakov +41w ago

Revisiting Autoregressive Models for Generative Image Classification

Autoregressive generative classifiers can beat diffusion models at image classification, but only if you marginalize over token order.

Ilia Sudakov, I. Sudakov, Artem Babenko +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Longfei Liu +91w ago

EdgeCrafter: Compact ViTs for Edge Dense Prediction via Task-Specialized Distillation

Compact ViTs can now rival or surpass CNN-based architectures like YOLO for edge-based object detection, instance segmentation, and pose estimation, thanks to task-specialized distillation.

Longfei Liu, Yongjie Hou, Yang Li +7

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

Jiayi Luo +91w ago

Training-Free Sparse Attention for Fast Video Generation via Offline Layer-Wise Sparsity Profiling and Online Bidirectional Co-Clustering

Ditch the training: SVOO achieves up to 1.93x speedup in video generation with sparse attention by exploiting the intrinsic, layer-specific sparsity patterns of attention without any fine-tuning.

Jiayi Luo, Jiayu Chen, Jiayu Chen +7

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

L. Bayer +21w ago

Benchmarking CNN-based Models against Transformer-based Models for Abdominal Multi-Organ Segmentation on the RATIC Dataset

CNNs still reign supreme for medical image segmentation on heterogeneous datasets, beating out hybrid transformer models despite the latter's theoretical advantages.

L. Bayer, Sheethal Bhat, Andreas K. MaierCode

Architecture Design (Transformers, SSMs, MoE)Computer Vision Eval Frameworks & Benchmarks

Teerapong Panboonyuen1w ago

Foundations and Architectures of Artificial Intelligence for Motor Insurance

Automating motor insurance from vehicle damage analysis to claims evaluation is now possible with a vertically integrated AI paradigm.

Teerapong Panboonyuen

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Harald Minde Hansen +71w ago

Tendon-Actuated Robots with a Tapered, Flexible Polymer Backbone: Design, Fabrication, and Modeling

Tapered backbones in 3D-printed continuum robots unlock enhanced compliance and manipulability, all while slashing costs and assembly time.

Harald Minde Hansen, Nandita Gallacher, Nicholas B. Andrews +5

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI

Shang-Jui Ray Kuo +31w ago

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

State Space Models can outperform Vision Transformers as vision encoders in VLMs, particularly when model size is a constraint.

Shang-Jui Ray Kuo, Shang-Jui Kuo, Paola Cascante-Bonilla +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Alexandre Bloch +91w ago

The Exponentially Weighted Signature

Forget uniform weighting: the Exponentially Weighted Signature lets you inject temporal context and richer memory dynamics into path representations.

Alexandre Bloch, Alexandre Bloch, Samuel N. Cohen +7

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Yuegui Huang +51w ago

DyMoE: Dynamic Expert Orchestration with Mixed-Precision Quantization for Efficient MoE Inference on Edge

Edge devices can now run MoEs in real-time thanks to a dynamic quantization scheme that prioritizes important experts and critical layers.

Yuegui Huang, Zhiyuan Fang, Weiqi Luo +3

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Jonathan Lys +91w ago

D5P4: Partition Determinantal Point Process for Diversity in Parallel Discrete Diffusion Decoding

Discrete diffusion models can now generate more diverse text without sacrificing quality, thanks to a new decoding method that explicitly optimizes for diversity during beam search.

Jonathan Lys, Vincent Gripon, B. Pasdeloup +7

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Natural Language Processing

Lei Yang +31w ago

Fast and Effective Computation of Generalized Symmetric Matrix Factorization

Achieve fast and effective generalized symmetric matrix factorization by exploiting exact penalty and relaxation properties, enabling efficient solutions for a broad class of problems.

Lei Yang, Han Wan, Min Zhang +1

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Ruilin Li +51w ago

Enhancing Pretrained Model-based Continual Representation Learning via Guided Random Projection

Random projections in continual learning don't have to be random: carefully guiding them with target-aligned data beats the SOTA.

Ruilin Li, Heming Zou, Xiufeng Yan +3

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Ines Aitsahalia +21w ago

Hierarchical Latent Structure Learning through Online Inference

Discovering hierarchical structure in sequential data is now tractable, thanks to a new model that learns online without supervision.

Ines Aitsahalia, Kiyohito Iigaya, K. Iigaya

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Mohammad Al Ridhawi +31w ago

Adaptive Regime-Aware Stock Price Prediction Using Autoencoder-Gated Dual Node Transformers with Reinforcement Learning Control

Forget static models: this adaptive framework slashes stock price prediction error by dynamically routing data through specialized pathways based on real-time market regime detection.

Mohammad Al Ridhawi, Mahtab Haj Ali, M. Ali +1

Architecture Design (Transformers, SSMs, MoE)RLHF & Preference Learning Training Efficiency & Optimization

Qin Jiang +51w ago

Position: Spectral GNNs Are Neither Spectral Nor Superior for Node Classification

Spectral GNNs' purported spectral advantages for node classification are illusory; their performance actually hinges on their underlying MPNN structure, debunking the "graph Fourier transform" narrative.

Qin Jiang, Chengjia Wang, Michael Lones +3

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Xiangsheng Zhou +61w ago

UEPS: Robust and Efficient MRI Reconstruction

MRI reconstruction can be made dramatically more robust to clinical domain shifts by eliminating the need for explicit coil sensitivity map estimation.

Xiangsheng Zhou, Xiang Zhou, Hong Shang +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Xuan Liu +31w ago

Elastic Weight Consolidation Done Right for Continual Learning

EWC, a classic method for continual learning, has been underperforming because it suffers from gradient vanishing and protects the wrong parameters – but a simple "Logits Reversal" trick fixes both.

Xuan Liu, Xuan Liu, Xiaobin Chang +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Hoang-Tien Cao +31w ago

Transformers Learn Robust In-Context Regression under Distributional Uncertainty

Transformers can nail in-context learning for regression even when the data is a mess of non-Gaussian noise, heavy tails, and non-i.i.d. distributions, outperforming classical estimators.

Hoang-Tien Cao, H. Trinh, Tho Quan +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Zheng Lin +81w ago

GAPSL: A Gradient-Aligned Parallel Split Learning on Heterogeneous Data

Gradient misalignment across devices in parallel split learning can be tamed with a novel gradient alignment strategy, leading to faster convergence and higher accuracy in heterogeneous federated learning.

Zheng Lin, Zheng Lin, Ons Aouedi +6

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Yuchen Li +41w ago

Perceptio: Perception Enhanced Vision Language Models via Spatial Token Generation

LVLMs can gain a surprising amount of spatial reasoning ability by explicitly generating segmentation and depth tokens before answering questions.

Yuchen Li, Amanmeet Garg, Shalini Chaudhuri +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Cristian Buttaro +21w ago

Automatic detection of Gen-AI texts: A comparative framework of neural models

Supervised learning models can reliably outperform widely-used commercial AI text detectors, even across different languages and specialized domains like mental health.

Cristian Buttaro, C. Buttaro, Irene Amerini

Architecture Design (Transformers, SSMs, MoE)Eval Frameworks & Benchmarks Natural Language Processing

Sangwoo Shin +41w ago

Articulated-Body Dynamics Network: Dynamics-Grounded Prior for Robot Learning

Robots can learn faster and generalize better by encoding dynamics directly into their neural network architecture, outperforming standard transformers and GNNs.

Sangwoo Shin, Kunzhao Ren, Xiaobin Xiong +2

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Training Efficiency & Optimization+1

Damyon Kim +101w ago

A Passive Elastic-Folding Mechanism for Stackable Airdrop Sensors

Ditch the power-hungry actuators: this passive elastic-folding mechanism lets you stack and airdrop sensors that reliably self-deploy into 3D structures.

Damyon Kim, Yuichi Honjo, Tatsuya Iizuka +8

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI

1w ago

Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token

Ditch the mask decoder: a single segmentation token can unlock competitive image segmentation directly from MLLMs.

Anqi Zhang, X. Ji, Xiaokang Ji +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Chaoyang Wang +101w ago

Rethinking Vector Field Learning for Generative Segmentation

Diffusion models can generate segmentations that rival discriminative methods, but only if you reshape their vector fields with a distance-aware correction term that combats gradient vanishing.

Chaoyang Wang, Chaoyang Wang, Yaobo Liang +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Chinmay Prabhakar +121w ago·also Equal senior contribution, Unversity of Zurich

VesselTok: Tokenizing Vessel-like 3D Biomedical Graph Representations for Reconstruction and Generation

Representing complex 3D biomedical graphs as learned tokens unlocks generative modeling and efficient analysis of anatomical structures.

Chinmay Prabhakar, Bastian Wittmann, Tamaz Amiranashvili +10

Architecture Design (Transformers, SSMs, MoE)Computer Vision Scientific Discovery & Drug Design

Xue Yang +71w ago

End-to-End QGAN-Based Image Synthesis via Neural Noise Encoding and Intensity Calibration

End-to-end quantum image generation is now possible, even with limited qubits, thanks to a new method that bridges the gap between quantum circuits and pixel intensities.

Xue Yang, Rigui Zhou, Shizheng Jia +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Linfeng Zhang +171w ago

An SO(3)-equivariant reciprocal-space neural potential for long-range interactions

Finally, a neural interatomic potential that accurately models long-range electrostatic interactions without sacrificing SO(3) equivariance or energy-force consistency.

Linfeng Zhang, Linfeng Zhang, Taoyong Cui +15

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

1w ago

DA-Mamba: Learning Domain-Aware State Space Model for Global-Local Alignment in Domain Adaptive Object Detection

By combining CNNs and State Space Models, DA-Mamba achieves efficient global-local feature alignment for domain adaptive object detection, outperforming prior CNN-only and Transformer-based approaches.

Haochen Li, Rui Zhang, Hantao Yao +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Yuqing Wang +191w ago·also HKU

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

High-dimensional discrete tokens, previously out of reach for generative models, can now be directly generated, unlocking a unified token prediction paradigm for multimodal architectures.

Yuqing Wang, Yuqing Wang, Chuofan Ma +17

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Tianjiao Yu +121w ago

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

Text-to-3D generation gets a semantic upgrade: DreamPartGen creates 3D objects with parts that not only look right but also understand their relationships and align with textual descriptions.

Tianjiao Yu, Tianjiao Yu, Xinzhuo Li +10

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Anaísa Lucena +41w ago

Fast and Interpretable Autoregressive Estimation with Neural Network Backpropagation

Ditch slow, unstable AR estimation: neural nets offer a 12x speed boost and better convergence, without sacrificing interpretability.

Anaísa Lucena, Ana'isa Lucena, Ana Martins +2

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Training Efficiency & Optimization

Sophia Tang1w ago

Foundations of Schr\"odinger Bridges for Generative Modeling

Schrödinger Bridges elegantly unify diffusion models, score-based models, and flow matching under a single, powerful framework.

Sophia Tang

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Tianci Luo +81w ago

PromptHub: Enhancing Multi-Prompt Visual In-Context Learning with Locality-Aware Fusion, Concentration and Alignment

Spatial awareness is the secret ingredient to unlocking better visual in-context learning, boosting performance across diverse vision tasks.

Tianci Luo, Jinpeng Wang, Shi-Yu Qin +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Bruna Alves +21w ago

Unified Taxonomy for Multivariate Time Series Anomaly Detection using Deep Learning

The chaos of MTSAD research gets a little tamer with a new taxonomy that exposes the field's hidden convergence on Transformers and reconstruction, hinting at where the next breakthroughs will come from.

Bruna Alves, Armando J. Pinho, Sónia Gouveia

Architecture Design (Transformers, SSMs, MoE)Computer Vision Natural Language Processing

Haotian Lu +31w ago·also University of California at Riverside

WarPGNN: A Parametric Thermal Warpage Analysis Framework with Physics-aware Graph Neural Network

Predict thermal warpage in chiplet designs 200x faster than FEM simulations using a physics-aware graph neural network that learns directly from floorplans.

Haotian Lu, Jincong Lu, Sachin Sachdeva +1

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

Djamel Bouchaffra +71w ago

NeuroGame Transformer: Gibbs-Inspired Attention Driven by Game Theory and Statistical Physics

By recasting attention as a cooperative game and a statistical physics system, NeuroGame Transformer captures higher-order token dependencies, outperforming standard pairwise attention mechanisms.

Djamel Bouchaffra, D. Bouchaffra, Fayçal Ykhlef +5

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Swarnendu Banik +31w ago

HAViT: Historical Attention Vision Transformer

Injecting "historical attention" into vision transformers boosts accuracy by over 1% with minimal architectural changes, suggesting that current ViTs underutilize information learned in earlier layers.

Swarnendu Banik, Manish Das, S. Dubey +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Mar 18, 2026

2w ago

AdaMuS: Adaptive Multi-view Sparsity Learning for Dimensionally Unbalanced Data

AdaMuS overcomes the bias towards high-dimensional data in multi-view learning by adaptively pruning redundant parameters and sparsely fusing views, leading to improved performance on dimensionally unbalanced data.

Cai Xu, Changhao Sun, Ziyu Guan

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

José Palazzo Moreira de Oliveira2w ago

From Symbol to Meaning: Ontological and Philosophical Reflections on Large Language Models in Information Systems Engineering

LLMs aren't just better tools; they're forcing us to rethink the very nature of information, knowledge, and meaning in system design.

José Palazzo Moreira de Oliveira

Architecture Design (Transformers, SSMs, MoE)Constitutional AI & AI Ethics Natural Language Processing

Zirui Li +92w ago·also KU, Sofia University "St. Kliment Ohridski"

Video Understanding: From Geometry and Semantics to Unified Models

The field of video understanding is rapidly shifting from isolated pipelines to unified models capable of adapting to diverse downstream tasks, demanding a re-evaluation of current approaches.

Zirui Li, Mingqiao Ye, Feng Qiao +7

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

2w ago·also Fudan

MOSS-TTS Technical Report

Achieve controllable and scalable speech generation with MOSS-TTS, enabling zero-shot voice cloning and long-form synthesis.

Y. Gong, Yitian Gong, Botian Jiang +28

Architecture Design (Transformers, SSMs, MoE)Open-Source Models & Weights Speech & Audio

Young-Bin Park +12w ago

Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures

Forget finetuning – Kumiho's graph-native memory lets you swap in a better LLM and instantly double your agent's reasoning accuracy on complex cognitive tasks.

Young-Bin Park, Young Bin Park

Architecture Design (Transformers, SSMs, MoE)Reasoning & Chain-of-Thought Tool Use & Agents

Xianhang Cheng +32w ago

Steering Video Diffusion Transformers with Massive Activations

Video diffusion transformers exhibit a hidden "magnitude hierarchy" in their activations that can be exploited for training-free quality improvements via a simple steering method.

Xianhang Cheng, Yujian Zheng, Zhenyu Xie +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Interpretability & Mechanistic Interp

2w ago·also Adobe Research

LoST: Level of Semantics Tokenization for 3D Shapes

Forget geometric LODs: tokenizing 3D shapes by semantic salience unlocks SOTA reconstruction and efficient autoregressive generation with 10x-1000x fewer tokens.

Niladri Shekhar Dutt, Niladri Shekhar Dutt, Zifan Shi +11

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Antônio Junior Alves Caiado +12w ago

Dropout Robustness and Cognitive Profiling of Transformer Models via Stochastic Inference

Forget scaling laws: dropout robustness in transformers is a lottery, with smaller models sometimes showing perfect stability while larger models crumble under stochastic inference.

Antônio Junior Alves Caiado, Michael Hahsler

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Natural Language Processing

Yang-Tian Sun +62w ago

Stereo World Model: Camera-Guided Stereo Video Generation

Generate consistent stereo videos directly from RGB data, bypassing depth estimation and monocular-to-stereo conversion, with StereoWorld's novel camera-aware attention mechanisms.

Yang-Tian Sun, Zehuan Huang, Yifan Niu +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision World Models & Planning

2w ago

CWoMP: Morpheme Representation Learning for Interlinear Glossing

Unlock faster, more accurate interlinear glossing for low-resource languages by treating morphemes as atomic units, outperforming existing methods and enabling user-guided lexicon expansion without retraining.

Morris Alper, Enora Rice, Bhargav Shandilya +2

Architecture Design (Transformers, SSMs, MoE)Data Curation & Synthetic Data Natural Language Processing

2w ago

Atomic Trajectory Modeling with State Space Models for Biomolecular Dynamics

Generate realistic, atom-level molecular dynamics trajectories orders of magnitude faster with a novel State Space Model that captures long-range dependencies in biomolecular systems.

Liang Shi, Jiarui Lu, Junqi Liu +3

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

Marijn Ruiter +42w ago

RHYME-XT: A Neural Operator for Spatiotemporal Control Systems

Ditch costly PIDE integration: RHYME-XT learns the flow map directly, offering a continuous-time, discretization-invariant representation that beats state-of-the-art neural operators.

Marijn Ruiter, Miguel Aguiar, Jake Rap +2

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Scientific Discovery & Drug Design

Mengyu Bu2w ago

Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

LLMs can get a massive multilingual boost, especially in low-resource languages, by offloading translation to specialized models and carefully aligning their representations.

Mengyu Bu

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Open-Source Models & Weights

Yihong Chen2w ago

Attention Sinks Induce Gradient Sinks

Attention sinks aren't just a forward-pass phenomenon; they actively warp the training landscape by creating "gradient sinks" that drive massive activations.

Yihong Chen

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Training Efficiency & Optimization

CMU ML2w ago

Modeling Overlapped Speech with Shuffles

Achieve single-pass alignment of multi-talker speech – a feat previously impossible – by modeling overlaps as shuffles.

Matthew Wiesner, Samuele Cornell, Alexander Polok +5

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Speech & Audio

Ahmet Kaplan2w ago

Auto-Unrolled Proximal Gradient Descent: An AutoML Approach to Interpretable Waveform Optimization

Achieve near-optimal waveform optimization with 98.8% spectral efficiency using a 5-layer, AutoML-tuned unrolled proximal gradient descent network trained on just 100 samples.

Ahmet Kaplan

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Bassam Adnan +32w ago

ArchBench: Benchmarking Generative-AI for Software Architecture Tasks

Software architecture, a critical but underspecified domain, finally gets a unified benchmarking platform with ArchBench, enabling standardized evaluation of LLMs on complex system design tasks.

Bassam Adnan, Aviral Gupta, Sreemaee Akshathala +1

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Eval Frameworks & Benchmarks

2w ago

Revisiting Cross-Attention Mechanisms: Leveraging Beneficial Noise for Domain-Adaptive Learning

Injecting "beneficial noise" into cross-attention mechanisms can significantly improve unsupervised domain adaptation by forcing models to focus on content rather than style distractions.

Zelin Zang, Yehui Yang, Fei Wang +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Huan Song +72w ago

Ruyi2.5 Technical Report

Ruyi2.5 achieves comparable performance to Qwen3-VL on general multimodal benchmarks while significantly outperforming it in privacy-constrained surveillance, demonstrating the effectiveness of its edge-cloud architecture.

Huan Song, Shuyu Tian, Qingfei Zhao +5

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Open-Source Models & Weights

2w ago

Requirements volatility in software architecture design: an exploratory case study

Requirements volatility doesn't just delay projects; it directly undermines software architecture, leading to technical debt and scheduling nightmares.

Sanja Aaramaa, Sandun Dasanayake, M. Oivo +4

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis

2w ago

GMT: Goal-Conditioned Multimodal Transformer for 6-DOF Object Trajectory Synthesis in 3D Scenes

Synthesizing realistic 6-DOF object manipulation trajectories in complex 3D environments just got a whole lot better with GMT, a multimodal transformer that substantially outperforms existing methods.

Huajian Zeng, Huajian Zeng, Abhishek Saroha +2

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Robotics & Embodied AI

2w ago·also HKU

PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation

By disentangling semantic and contextual cues in vision-language models, PCA-Seg achieves state-of-the-art open-vocabulary segmentation with only 0.35M additional parameters per block.

Jianjian Yin, Tao Chen, Yi Chen +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Jie Lei +42w ago

Enabling RISC-V Vector Code Generation in MLIR through Custom xDSL Lowerings

Achieve up to 2.4x speedup over OpenBLAS on RISC-V by using MLIR and xDSL to generate optimized RVV code, finally unlocking the potential of RISC-V vector extensions.

Jie Lei, Héctor Martínez, H. Mart'inez +2

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Distributed Systems & Hardware

2w ago

ChopGrad: Pixel-Wise Losses for Latent Video Diffusion via Truncated Backpropagation

Training video diffusion models with pixel-wise losses just got a whole lot cheaper: ChopGrad reduces memory complexity from linear to constant with video length.

Dmitriy Rivkin, Parker Ewen, Lili Gao +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Nil Ayday +22w ago

Gaussian Process Limit Reveals Structural Benefits of Graph Transformers

Graph transformers avoid oversmoothing in deep layers by structurally preserving community information, a theoretical advantage over GCNs revealed through Gaussian process limits.

Nil Ayday, Lingchu Yang, Debarghya Ghoshdastidar

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Xingyu Chen +32w ago

Consistency-Driven Dual LSTM Models for Kinematic Control of a Wearable Soft Robotic Arm

Cycle consistency training unlocks stable and accurate inverse kinematics for wearable soft robots, even with their inherent nonlinearities and hysteresis.

Xingyu Chen, Yifu Xiong, Yi Xiong +1

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI

University of Pavia2w ago·also Euler Institute

Translation Invariance of Neural Operators for the FitzHugh-Nagumo Model

Convolutional Neural Operators (CNOs) surprisingly excel at capturing translated dynamics in the FitzHugh-Nagumo model, despite other architectures achieving lower training error or faster inference.

Luca Pellegrini

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design Training Efficiency & Optimization

Qi Tang +62w ago

Prompt-Free Universal Region Proposal Network

Forget prompt engineering: this new region proposal network spots objects across diverse datasets without *any* text or image prompts.

Qi Tang, Qihong Tang, Changhan Liu +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Leonardo Del Grande +22w ago

A Dual Certificate Approach to Sparsity in Infinite-Width Shallow Neural Networks

Infinite neural nets can be sparse, and this paper proves it, showing that total variation regularization provably yields sparse solutions in infinite-width shallow ReLU networks, with sparsity bounds tied to the geometry of the data.

Leonardo Del Grande, Christoph Brune, Marcello Carioni

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

2w ago·also Shenzhen Institute of Advanced

Baguan-TS: A Sequence-Native In-Context Learning Model for Time Series Forecasting with Covariates

Ditch the feature engineering: Baguan-TS lets you use raw time series sequences directly for in-context forecasting, outperforming traditional methods.

Linxiao Yang, Xue Jiang, Gezheng Xu +9

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Search

Architecture Design (Transformers, SSMs, MoE) - Weekly Roundup

Selected Labs publishing this week

Top Papers

All Papers (100)