Dimitris N. Metaxas

Forget opaque embeddings: Cross-Layer Transcoders reveal how ViT layers contribute to the final representation, pinpointing the critical few that drive performance.

Gerasimos Chatzoudis, Konstantinos D. Polyzos, Zhuowei Li +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Interpretability & Mechanistic Interp

Mar 27, 2026

MPDiT: Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model

Halve the training cost of your diffusion transformer without sacrificing generative performance by using multi-patch hierarchies.

Quan Dao, Dimitris N. Metaxas

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Feb 12, 2026

Feb 12, 2026·also NUDT

T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

Few-step diffusion language models get a boost from trajectory self-distillation with direct discriminative optimization, narrowing the quality gap with slower, full-step decoding.

Tunyu Zhang, Xinxi Zhang, Ligong Han +6

Inference & Quantization Natural Language Processing Training Efficiency & Optimization

Search

Dimitris N. Metaxas

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (5)