Zhepei Wang

Papers on Lattice

Total citations

Topics

Research focus

Speech & Audio (2)Architecture Design (Transformers, SSMs, MoE) (1)Training Efficiency & Optimization (1)Data Curation & Synthetic Data (1)Multimodal Models (1)

Frequent co-authors

Nicholas J. Bryan (2)Jonah Casebeer (1)Ge Zhu (1)Sonal Kumar (1)

Papers (2)

Feb 17, 2026

Jonah Casebeer +3Feb 17, 2026

A Generative-First Neural Audio Autoencoder

Compressing 60-second audio into just 788 tokens, this new autoencoder makes generative audio modeling far more tractable by slashing encoding time and latent rates.

Jonah Casebeer, Ge Zhu, Zhepei Wang +1

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Feb 17, 2026·also Google Research, Adobe Research, ByteDance

TAC: Timestamped Audio Captioning

A new model, TAC, uses synthetic training data to achieve state-of-the-art audio and audio-visual reasoning by generating temporally grounded captions that can then be fed into LLMs.

Sonal Kumar, Prem Seetharaman, Oriol Nieto +5

Data Curation & Synthetic Data Multimodal Models Speech & Audio

Search

Zhepei Wang

Research focus

Frequent co-authors

Papers (2)