Nov 13, 2025arXiv:2511.10262

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Hengrui Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu, Shaohua Ma, Irwin King

AI Summary

The paper introduces MTR-DuplexBench, a new benchmark for evaluating Full-Duplex Speech Language Models (FD-SLMs) in multi-round conversations, addressing the limitations of existing benchmarks that focus on single-round interactions. The benchmark segments continuous full-duplex dialogues into discrete turns and evaluates conversational features, dialogue quality, instruction following, and safety. Experiments using MTR-DuplexBench reveal that current FD-SLMs struggle to maintain consistent performance across multiple rounds and evaluation dimensions, demonstrating the benchmark's effectiveness.

Key Contribution

Current Full-Duplex Speech Language Models stumble in multi-round conversations, struggling to maintain consistent performance across turns and various evaluation dimensions.

Abstract

Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: https://github.com/ZhangHe0918/MTR-DuplexBench

Eval Frameworks & Benchmarks Natural Language Processing Speech & Audio

Citation Metrics

Citations3

Influential citations0

References56

Year2025

VenuearXiv.org

Related Papers

Finding related papers...

Search

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

Related Papers