Mingshu Chen

Papers on Lattice

Total citations

Topics

h-index

Research focus

Speech & Audio (3)Architecture Design (Transformers, SSMs, MoE) (2)Multimodal Models (2)Open-Source Models & Weights (1)Computer Vision (1)

Frequent co-authors

Ruixiao Li (3)Zhaoye Fei (3)Shimin Li (3)Y. Gong (2)

Papers (3)

Mar 18, 2026

Mar 18, 2026·also Fudan

MOSS-TTS Technical Report

Achieve controllable and scalable speech generation with MOSS-TTS, enabling zero-shot voice cloning and long-form synthesis.

Y. Gong, Yitian Gong, Botian Jiang +28

Architecture Design (Transformers, SSMs, MoE)Open-Source Models & Weights Speech & Audio

Feb 11, 2026

Yitian Gong +11Feb 11, 2026

MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

A purely Transformer-based audio tokenizer, pre-trained on 3M hours of data, leapfrogs existing codecs and even enables a fully autoregressive TTS model to outperform cascaded systems.

Yitian Gong, Y. Gong, Kuangwei Chen +9

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Speech & Audio

Feb 9, 2026

Tsinghua AIFeb 9, 2026·also Fudan, TU Darmstadt, UQ

MOVA: Towards Scalable and Synchronized Video-Audio Generation

Open-source MOVA lets you generate synchronized, high-quality video and audio—including realistic lip sync—without relying on closed-source systems.

SII-OpenMOSS Team Donghua Yu, Mingshu Chen, Qi Chen +33

Computer Vision Multimodal Models Speech & Audio

Search

Mingshu Chen

Research focus

Frequent co-authors

Papers (3)