CMU MLInstitute of Science TokyoShanda AI Research TokyoUNISTUTokyoFeb 26, 2026arXiv:2602.23165

DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Yichen Peng, Yichen Peng, Jyun-Ting Song, Jyun-Ting Song, Siyeol Jung, Siyeol Jung, Ruofan Liu, Ruofan Liu, Haiyang Liu, Haiyang Liu, Xuangeng Chu, Xuangeng Chu, Ruicong Liu, Ruicong Liu, Erwin Wu, Erwin Wu, Hideki Koike, Hideki Koike, Kris Kitani, Kris Kitani

AI Summary

The paper introduces DyaDiT, a multi-modal diffusion transformer for generating socially appropriate dyadic gestures conditioned on dyadic audio and optional social context tokens. DyaDiT models the interaction dynamics between two speakers by fusing information from both audio streams and optionally incorporating the conversational partner's gestures, while also leveraging a motion dictionary for motion priors. Experiments on the Seamless Interaction Dataset demonstrate that DyaDiT outperforms existing methods in motion generation metrics and is preferred by users for its socially favorable motion.

Key Contribution

Finally, digital humans can have realistic, socially aware conversations: DyaDiT generates dyadic gestures that users strongly prefer over existing methods.

Abstract

Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Speech & Audio

Citation Metrics

Citations0

Influential citations0

References53

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

Related Papers