Xie Chen

HoliDubber revolutionizes video dubbing by seamlessly integrating speech and sound effects from a single text prompt, outperforming traditional methods in quality and synchronization.

Yifan Duan, Junxi Liu, Yu Gu +4

Multimodal Models Speech & Audio

Jun 5, 2026

1w ago·also Fudan, Hunyuan Team, NTU, PKU +4

MMAE: A Massive Multitask Audio Editing Benchmark

Current audio editing models are failing spectacularly, with an Exact Match Rate below 5% in complex tasks, exposing a critical need for improvement.

Ziyang Ma, Ruiqi Yan, Ruiyang Xu +33

Eval Frameworks & Benchmarks Multimodal Models Speech & Audio

May 29, 2026

Yanjie An +72w ago·also SJTU

OpenSTBench: Beyond Semantic Evaluation for Speech Translation

Strong translation quality doesn't guarantee high speech or temporal fidelity, revealing critical gaps in existing evaluation practices for speech translation systems.

Yanjie An, Yuxiang Zhao, Yichi Zhang +5

Eval Frameworks & Benchmarks Multimodal Models Speech & Audio

May 25, 2026

3w ago·also Hunyuan Team, SJTU, Tencent AI

Proactive for Uncertainty: Cause-Aware Error Diagnosis and Interactive Clarification for Spoken Dialogue Systems

LLMs can transform ambiguous spoken signals into seamless user interactions by diagnosing the *cause* of ASR errors (perception, comprehension, deletion) and proactively requesting targeted clarification.

Yizhou Peng, Changsong Liu, Yi-Wen Chao +2

Natural Language Processing Speech & Audio

Apr 27, 2026

Apr 27, 2026·also SJTU

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

ASR systems can now be more trustworthy: this work shows how to train them to abstain from transcribing uncertain segments, leading to more reliable outputs.

Wen-Chin Huang, Yuhang Qiu, Bohan Li +4

Eval Frameworks & Benchmarks Natural Language Processing Speech & Audio

Apr 22, 2026

Chenyuan Zhang +7Apr 22, 2026·also Tsinghua AI, HIT, Shenzhen Loop Area Institute, SJTU

Less Languages, Less Tokens: An Efficient Unified Logic Cross-lingual Chain-of-Thought Reasoning Framework

Reasoning across languages doesn't have to break the bank: a new framework slashes token costs by over 50% while maintaining accuracy, especially boosting performance in low-resource languages.

Chenyuan Zhang, Qiguang Chen, Xie Chen +5

Inference & Quantization Natural Language Processing Reasoning & Chain-of-Thought

Search

Xie Chen

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (7)