Xiangyu Tony Zhang

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Speech & Audio (2)Architecture Design (Transformers, SSMs, MoE) (1)Open-Source Models & Weights (1)Multimodal Models (1)

Frequent co-authors

Haoyang Zhang (2)Jinglan Gong (2)Xuerui Yang (2)Bin Lin (1)

Papers (2)

May 22, 2026

Open-Sora Plan TeamMay 22, 2026·also Annenberg School of Communication and Journalism, Department of Foundation Model, Griffith, PKU +4

StepAudio 2.5 Technical Report

Forget specialized architectures: StepAudio 2.5 proves a single audio-language foundation, shaped by RLHF, can dominate ASR, TTS, and real-time dialogue simultaneously.

Bin Lin, Bo Zhao, Boyong Wu +89

Architecture Design (Transformers, SSMs, MoE)Open-Source Models & Weights Speech & Audio

Apr 28, 2026

Yuxin Zhang +21Apr 28, 2026·also NTU

Step-Audio-R1.5 Technical Report

RLVR, the dominant training paradigm for audio language models, may be turning them into unfeeling "answering machines" that excel on benchmarks but fail the vibe check.

Yuxin Zhang, Xiangyu Zhang, Xiangyu Tony Zhang +19

Multimodal Models Reasoning & Chain-of-Thought RLHF & Preference Learning+1

Search

Xiangyu Tony Zhang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)