Yu Xi

Papers on Lattice

Total citations

Topics

h-index

Research focus

Speech & Audio (3)Multimodal Models (2)Computer Vision (1)Data Curation & Synthetic Data (1)Architecture Design (Transformers, SSMs, MoE) (1)

Frequent co-authors

Yiduo Jia (1)Muzhi Zhu (1)Haoyang Zhong (1)Mingyu Liu (1)

Papers (3)

Apr 9, 2026

Yiduo Jia +11Apr 9, 2026·also Xiaomi Inc, ZJU

OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

OmniJigsaw reveals a "bi-modal shortcut phenomenon" in joint audio-visual integration, demonstrating that naive fusion can be surprisingly ineffective and highlighting the importance of carefully designed cross-modal training strategies.

Yiduo Jia, Muzhi Zhu, Haoyang Zhong +9

Computer Vision Multimodal Models Speech & Audio

Apr 9, 2026·also XJTU

TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs

Forget expensive audio-text data collection: TASU2 lets you dial in the perfect amount of noise for training your speech LLM, all from text.

Jing Peng, Jing Peng, Chenghao Wang +8

Data Curation & Synthetic Data Multimodal Models Speech & Audio

Feb 12, 2026

Qingshun She +2Feb 12, 2026

TC-BiMamba: Trans-Chunk bidirectionally within BiMamba for unified streaming and non-streaming ASR

Ditch fixed chunk sizes: TC-BiMamba unlocks faster, more memory-efficient training for bidirectional Mamba ASR models, enabling unified streaming and non-streaming decoding.

Qingshun She, Yangui Fang, Yu Xi

Architecture Design (Transformers, SSMs, MoE)Speech & Audio Training Efficiency & Optimization

Search

Yu Xi

Research focus

Frequent co-authors

Papers (3)