Tsinghua AI

×Architecture Design (Transformers, SSMs, MoE)

46 papers from Tsinghua AI on Architecture Design (Transformers, SSMs, MoE)

May 3, 2026

Central Conservatory of Music2w ago·also Tsinghua AI

Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation

Forget separate structure and fidelity models – Khala shows you can generate high-quality music with text-vocal alignment using a single acoustic-token hierarchy.

Jiafeng Liu, Yuanliang Dong, Hongjia Liu +8

Architecture Design (Transformers, SSMs, MoE)Scaling Laws & Emergent Abilities Speech & Audio

2w ago·also Tsinghua AI, AgiBot

Spoken Language Identification with Pre-trained Models and Margin Loss

Margin loss fine-tuning of ECAPA-TDNNs slashes the error rate in spoken language identification by over 50%, highlighting the power of discriminative representation learning.

Zhihua Fang, Liang He, Weiwu Jiang

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Speech & Audio

May 1, 2026

Stanford HAI3w ago·also Tsinghua AI, Beihang, CUHK, HKUST +1

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Instead of training separate video diffusion models for each multimodal task, UniVidX learns a single model that handles diverse pixel-aligned video generation problems.

Houyuan Chen, Hong Li, Xianghao Kong +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Apr 30, 2026

Tsinghua AI3w ago·also MiniCPM-o Team, Tencent AI

MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal Interaction

Forget turn-based interactions: MiniCPM-o 4.5 lets you build AI that sees, hears, speaks, and *reacts* in real-time, all on a device with only 12GB of RAM.

Junbo Cui, Bokai Xu, Chongyi Wang +36

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Open-Source Models & Weights

Tsinghua AI3w ago·also Microsoft Research

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Forget fully connected relation graphs: CasLayout's sparse relation modeling unlocks enhanced controllability and realism in 3D indoor scene synthesis.

Yingrui Wu, Youkang Kong, Mingyang Zhao +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Tsinghua AI3w ago·also Microsoft Research

SQuadGen: Generating Simple Quad Layouts via Chart Distance Fields

Simple, artist-friendly quad meshes can now be automatically generated on 3D shapes using a diffusion model trained on a continuous surface representation, sidestepping the complexity of discrete mesh optimization.

Youkang Kong, Yang Liu, Yang Liu +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Apr 29, 2026

Tsinghua AI3w ago·also Tencent AI

SPG-Codec: Exploring the Role and Boundaries of Semantic Priors in Ultra-Low-Bitrate Neural Speech Coding

Semantic priors in neural speech codecs hit a wall: their benefits plateau beyond 6 kbps, revealing a fundamental limit to improving intelligibility at higher bitrates.

Mingyu Zhao, Zijian Lin, Kun Wei +2

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Natural Language Processing+1

Tsinghua AI3w ago

Decoupling Knowledge and Task Subspaces for Composable Parametric Retrieval Augmented Generation

Untangling task-solving skills from factual knowledge in PRAG adapters makes them play better together, boosting performance when you combine multiple documents.

Weihang Su, Hanwen Zhang, Qingyao Ai +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Recommendation & Information Retrieval

Apr 23, 2026

Tsinghua AIApr 23, 2026

MISTY: High-Throughput Motion Planning via Mixer-based Single-step Drifting

Autonomous vehicles can now plan trajectories 10x faster without sacrificing performance, thanks to a novel architecture that learns complex driving behaviors in latent space during training.

Yining Xing, Zehong Ke, Yiqian Tu +3

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI World Models & Planning

Tsinghua AIApr 23, 2026

UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

By unifying generative and discriminative approaches, UniGenDet achieves superior image generation and detection, suggesting that these tasks benefit from a symbiotic relationship previously hindered by architectural divergence.

Yanran Zhang, Wenzhao Zheng, Yifei Li +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Apr 21, 2026

Tsinghua AIApr 21, 2026·also CUHK

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

Autoregressive generative models, previously unsuitable for real-time target speaker extraction, can now achieve offline-level performance in streaming scenarios thanks to a novel chunk-wise splicing technique.

Shuhai Peng, Hui Lu, Jinjiang Liu +8

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Speech & Audio

Apr 20, 2026

Tsinghua AIApr 20, 2026

Periodic Steady-State Control of a Handkerchief-Spinning Task Using a Parallel Anti-Parallelogram Tendon-driven Wrist

A custom-designed tendon-driven wrist, combined with a particle-spring model, enables precise and robust control of highly flexible objects like spinning handkerchiefs.

Lei Liu, Haonan Zhang, Huahang Xu +9

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Training Efficiency & Optimization

Tsinghua AIApr 20, 2026

M100: An Orchestrated Dataflow Architecture Powering General AI Computing

Ditching caches for compiler-managed data streams, Li Auto's M100 architecture achieves higher utilization than GPUs on autonomous driving tasks, hinting at a new path for efficient AI inference.

Yan Xie, Changkui Mao, Chan-gui Wu +41

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Training Efficiency & Optimization

Tsinghua AIApr 20, 2026·also PKU, SJTU, ZJU

From Craft to Kernel: A Governance-First Execution Architecture and Semantic ISA for Agentic Computers

Agentic AI's fragility stems from relying on LLMs for system control, but Arbiter-K flips the script by using a deterministic kernel to govern the LLM, achieving up to 95% unsafe action interception.

Xiangyu Wen, Yuang Zhao, Lingjun Chen +10

Architecture Design (Transformers, SSMs, MoE)Constitutional AI & AI Ethics Tool Use & Agents

Apr 20, 2026·also DAMO, Tsinghua AI, BUPT

UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

RL fine-tuning of discrete diffusion models can be made dramatically more stable and effective by treating the final denoised sample as the action and reconstructing trajectories using the forward diffusion process.

Jiaqi Wang, Haoge Deng, Ting Pan +10

Architecture Design (Transformers, SSMs, MoE)Computer Vision RLHF & Preference Learning+1

Apr 17, 2026

Tsinghua AIApr 17, 2026·also Beihang, HKU, PKU, Tencent AI

Repurposing 3D Generative Model for Autoregressive Layout Generation

Autoregressive 3D layout generation can be both more physically plausible and significantly faster by repurposing existing 3D generative models.

Haoran Feng, Yifan Niu, Zehuan Huang +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Apr 16, 2026

Apr 16, 2026·also Tsinghua AI

Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter

Decoupling LLM prefill and decode across datacenters is now practical, unlocking independent scaling and resource elasticity, thanks to a system that combines KV-efficient models with intelligent request scheduling.

Ruoyu Qin, Weiran He, Yaoyu Wang +5

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Apr 15, 2026

Apr 15, 2026·also Tsinghua AI, State Key Laboratory of Complex &

MAny: Merge Anything for Multimodal Continual Instruction Tuning

MLLMs don't just forget language, they also suffer from perceptual drift in cross-modal spaces, but MAny offers a training-free merging strategy to fix both.

Zijian Gao, Wangwang Jia, Xingxing Zhang +5

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

Tsinghua AIApr 15, 2026·also Huawei, HUST

RoTE: Coarse-to-Fine Multi-Level Rotary Time Embedding for Sequential Recommendation

Simply plugging in RoTE, a lightweight temporal embedding module, can boost existing Transformer-based sequential recommendation models by over 20% on standard benchmarks.

Haolin Zhang, Longtao Xiao, Guohao Cai +2

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval

Tsinghua AIApr 15, 2026

SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment

LLM agent harnesses are surprisingly vulnerable, but weaving security directly into the agent lifecycle can slash attack success by 42% without sacrificing utility.

Xixun Lin, Yancheng Chen, Yongxuan Wu +11

Architecture Design (Transformers, SSMs, MoE)Red-Teaming & Adversarial Robustness Tool Use & Agents

Apr 13, 2026

Tsinghua AIApr 13, 2026·also Guangming Laboratory, NJU, PolyU

LottieGPT: Tokenizing Vector Animation for Autoregressive Generation

Finally, a model that speaks fluent Lottie: LottieGPT generates editable vector animations directly from text or images, opening up a new frontier for resolution-independent, compact, and semantically structured multimedia creation.

Junhao Chen, Kejun Gao, Yuehan Cui +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Tsinghua AIApr 13, 2026·also China University of Petroleum (Beijing), Heavy Oil Processing, Key Laboratory, School of Software

Sparse Hypergraph-Enhanced Frame-Event Object Detection with Fine-Grained MoE

Achieve state-of-the-art object detection accuracy and efficiency by fusing RGB frames and event streams with a sparse hypergraph and a fine-grained mixture of experts, enabling real-time edge deployment.

Wei Bao, Yuehan Wang, Tianhang Zhou +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Apr 11, 2026

Tsinghua AIApr 11, 2026·also HKU, Huawei, LongCat Team, Ohio State +3

Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation

Attention Sink, where Transformers fixate on seemingly irrelevant tokens, is more than just a quirk – it's a fundamental challenge impacting training, inference, and even causing hallucinations, demanding a systematic approach to understanding and mitigating its effects.

Zunhai Su, Hengyuan Zhang, Yifan Zhang +12

Architecture Design (Transformers, SSMs, MoE)Interpretability & Mechanistic Interp Natural Language Processing

Apr 9, 2026

Tsinghua AIApr 9, 2026

SurfelSplat: Learning Efficient and Generalizable Gaussian Surfel Representations for Sparse-View Surface Reconstruction

Ditch the slow per-scene optimization: SurfelSplat reconstructs surfaces from sparse views in under a second, matching state-of-the-art accuracy with a 100x speedup.

Chensheng Dai, Shengjun Zhang, Yueqi Duan

Architecture Design (Transformers, SSMs, MoE)Computer Vision Robotics & Embodied AI+1

Apr 8, 2026

Apr 8, 2026·also Tsinghua AI, ANL, Nuclear Science and Engineering Division

Graph Neural ODE Digital Twins for Control-Oriented Reactor Thermal-Hydraulic Forecasting Under Partial Observability

Millisecond-scale forecasting of reactor thermal-hydraulics, even with missing sensors, is now possible thanks to a physics-informed GNN-ODE digital twin that learns interpretable heat-transfer scaling.

Akzhol Almukhametov, Doyeong Lim, Rui Hu

Architecture Design (Transformers, SSMs, MoE)Scientific Discovery & Drug Design

Apr 8, 2026·also Tsinghua AI, BaiyunPort, Gannan Normal University, Sanda University +4

Balancing Efficiency and Restoration: Lightweight Mamba-Based Model for CT Metal Artifact Reduction

Achieve state-of-the-art metal artifact reduction in CT images with MARMamba, a Mamba-based model that's both lightweight and preserves anatomical structure.

Weikai Qu, Weikai Qu, Sijun Liang +17

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Tsinghua AIApr 8, 2026

Benchmarking Requirement-to-Architecture Generation with Hybrid Evaluation

LLMs can generate syntactically valid software architectures from requirements, but their struggle with relational reasoning leads to structurally unsound designs.

Minxiao Li, Shuying Yan, Fang Liu

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Eval Frameworks & Benchmarks

Apr 7, 2026

Apr 7, 2026·also Tsinghua AI, Aarhus University

QA-MoE: Towards a Continuous Reliability Spectrum with Quality-Aware Mixture of Experts for Robust Multimodal Sentiment Analysis

Existing multimodal sentiment analysis models crumble under real-world noise, but QA-MoE leverages uncertainty to dynamically route inputs, achieving robust performance across a continuous spectrum of data quality.

Yitong Zhu, Yuxuan Jiang, Guanxuan Jiang +3

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Natural Language Processing

Apr 1, 2026

Independent ResearcherApr 1, 2026·also DAMO, Tsinghua AI, Ant Group, Moonshot +1

TENT: A Declarative Slice Spraying Engine for Performant and Resilient Data Movement in Disaggregated LLM Serving

Ditch static data paths: TENT dynamically slices and sprays LLM data across heterogeneous interconnects, self-healing in under 50ms and boosting throughput by up to 36%.

Yineng Zhang, Yuhao Fu, Mingxing Zhang

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization+1

Mar 17, 2026

Mar 17, 2026·also Tsinghua AI, NUDT, UESTC

RaDAR: Relation-aware Diffusion-Asymmetric Graph Contrastive Learning for Recommendation

By intelligently injecting and removing noise, RaDAR significantly improves recommendation accuracy in sparse and noisy collaborative filtering environments.

Shengfan Zhang, Zongsheng Cao

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval

Mar 16, 2026

Tsinghua AIMar 16, 2026·also HKUST, UMacau

Loosely-Structured Software: Engineering Context, Structure, and Evolution Entropy in Runtime-Rewired Multi-Agent Systems

Scaling LLM-based multi-agent systems doesn't just need better prompts or models, but a whole new software engineering approach focused on managing runtime entropy.

Weihao Zhang, Huanyu Qu, Hongyi Li

Architecture Design (Transformers, SSMs, MoE)Code Generation & Program Synthesis Tool Use & Agents

Mar 12, 2026

Tsinghua AIMar 12, 2026

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

Floor plan generation gets a major upgrade with HouseMind, a multimodal LLM that uses discrete room-instance tokens to achieve unprecedented geometric validity and controllability.

Sizhong Qin, R. Weber, Xinzheng Lu

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Tsinghua AIMar 12, 2026·also CAS

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Cut sparse attention indexing costs by 75% without sacrificing quality by intelligently reusing indices across layers.

Yushi Bai, Yu Bai, Qian Dong +7

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Mar 11, 2026

Tsinghua AIMar 11, 2026·also CAS, ZJU

GLM-OCR Technical Report

A compact 0.9B multimodal model, GLM-OCR, achieves state-of-the-art document understanding by predicting multiple tokens at once, boosting decoding throughput without blowing up memory.

Shuaiqi Duan, Ya-Qi Xue, Weihan Wang +16

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Training Efficiency & Optimization

Mar 10, 2026

Xiamen UniversityMar 10, 2026·also Tsinghua AI, Chongqing, Openharmony Community

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

By strategically increasing hash collisions, Nemo slashes write amplification in flash caches for tiny objects, a persistent bottleneck even with advanced SSDs.

Xufeng Yang, Tingting Tan, Jingxin Hu +3

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Mar 5, 2026

Tsinghua AIMar 5, 2026·also China Southern, Chongqing

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

Aura unlocks more accurate aviation time series forecasting by explicitly modeling how different types of external factors interact with temporal dynamics.

Jiafeng Lin, Mengren Zheng, S. Ye +4

Architecture Design (Transformers, SSMs, MoE)Multimodal Models

Tsinghua AIMar 5, 2026·also ByteDance

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

Ditch the optimization: MoRe achieves real-time 4D scene reconstruction from monocular video using a feedforward transformer that disentangles motion and structure.

Juntong Fang, Zequn Chen, Weiqi Zhang +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Robotics & Embodied AI

Mar 4, 2026

Mar 4, 2026·also Tsinghua AI, Chinese Academy of Science

All-in-One Image Restoration via Causal-Deconfounding Wavelet-Disentangled Prompt Network

By explicitly disentangling degradation and semantic features with wavelet attention, CWP-Net achieves superior all-in-one image restoration, outperforming previous methods hampered by spurious correlations and biased degradation estimation.

Bingnan Wang, Jiangmeng Li, Fanjiang Xu +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Mar 3, 2026

Tsinghua AIMar 3, 2026·also ECNU, Hebei University of Science and Technology

APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation

Generative recommendation gets a boost: APAO tackles the training-inference gap by intelligently optimizing for prefixes, leading to better candidate retention during beam search.

Yuanqing Yu, Yifan Wang, Weizhi Ma +1

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval Training Efficiency & Optimization

Tsinghua AIMar 3, 2026·also SJTU, State Key Laboratory of Space Network and Communications

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

Get 10x faster generative image compression on GPUs with ProGIC, a lightweight RVQ codec that doesn't sacrifice perceptual quality.

Hao Cao, Chengbin Liang, Wenqi Guo +1

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

Mar 1, 2026

Lanzhou UniversityMar 1, 2026·also Tsinghua AI, State Key Laboratory of Intelligent Green Vehicle and Mobility

DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

LLMs can now handle autonomous driving tasks with greater precision and efficiency thanks to DriveCode, which replaces discrete number tokens with continuous embeddings.

Zhiye Wang, Yanbo Jiang, Fang Zhang

Architecture Design (Transformers, SSMs, MoE)Robotics & Embodied AI Training Efficiency & Optimization

Feb 25, 2026

Tsinghua AIFeb 25, 2026

Function-Space Empirical Bayes Regularisation with Student's t Priors

Student's t priors in function-space Bayesian regularization unlock more robust uncertainty estimates and better handle distribution shifts compared to Gaussian priors.

Pengcheng Hao, Ercan Engin Kuruoglu

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Feb 18, 2026

Tsinghua AIFeb 18, 2026·also HIT, TJU, USTB

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

LLM serving can achieve 5.6x higher throughput without sacrificing latency by decoupling preemption granularity from scheduling frequency.

Chia-chi Hsieh, Chia-chi Hsieh, Zan Zong +9

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Feb 16, 2026

Tsinghua AIFeb 16, 2026

Scope: A Scalable Merged Pipeline Framework for Multi-Chip-Module NN Accelerators

Unlock 1.7x throughput gains on multi-chip neural network accelerators by jointly optimizing the pipelining of multiple layers, a dimension previously overlooked.

Zongle Huang, Hongyang Jia, Kaiwei Zou +1

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Feb 15, 2026

Tsinghua AIFeb 15, 2026·also OpenAI, HIT, Kuaishou, PolyU +1

UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing

Achieve scalable and consistent multi-reference image editing by dynamically serializing reference images into a coherent latent sequence, outperforming existing diffusion-based methods.

Hongyang Wei, Bin Wen, Yancheng Long +15

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Feb 12, 2026

Tsinghua AIFeb 12, 2026·also Tencent AI

Temporal Difference Learning with Constrained Initial Representations

Constraining initial state representations with a simple Tanh activation and skip connections can significantly boost off-policy RL performance, rivaling more complex methods on continuous control tasks.

Jiafei Lyu, Jingwen Yang, Zhongjian Qiao +3

Architecture Design (Transformers, SSMs, MoE)Training Efficiency & Optimization

Search

Tsinghua AI