Steve Yves

Zhejiang University, Tencent Hunyuan

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (2)Speech & Audio (2)Eval Frameworks & Benchmarks (1)

Frequent co-authors

Liefeng Bo (2)Zhiyuan Zhu (1)Yixuan Chen (1)Yiwen Shao (1)

Papers (2)

Jun 9, 2026

6d ago·also Tencent AI

Spatial-Omni: Spatial Audio Understanding Integration in Multimodal LLMs via FOA Encoding

Spatial-Omni achieves superior spatial audio understanding by seamlessly integrating FOA encoding into existing LLMs, outperforming traditional models without compromising general audio processing.

Zhiyuan Zhu, Yixuan Chen, Yiwen Shao +12

Multimodal Models Speech & Audio

Jun 5, 2026

1w ago·also Fudan, Hunyuan Team, NTU, PKU +4

MMAE: A Massive Multitask Audio Editing Benchmark

Current audio editing models are failing spectacularly, with an Exact Match Rate below 5% in complex tasks, exposing a critical need for improvement.

Ziyang Ma, Ruiqi Yan, Ruiyang Xu +33

Eval Frameworks & Benchmarks Multimodal Models Speech & Audio

Search

Steve Yves

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)