SonyTsukubaFeb 24, 2026arXiv:2602.20981

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Christian Simon, Christian Simon, MAsato Ishii, Masato Ishii, Wei-Yao Wang, Wei-Yao Wang, Koichi Saito, Koichi Saito, Akio Hayakawa, Akio Hayakawa, Dongseok Shim, D. Shim, Zhi Zhong, Zhi-Wei Zhong, Shuyang Cui, Shuyang Cui, Shusuke Takahashi, Shusuke Takahashi, Takashi Shibuya, Takashi Shibuya, Yuki Mitsufuji, Yuki Mitsufuji

AI Summary

The paper introduces Multimodal Hierarchical Networks (MMHNet), an extension of existing video-to-audio models, to improve length generalization in video-to-audio generation. MMHNet incorporates a hierarchical structure and non-causal Mamba layers to enable the generation of long-form audio. Experiments demonstrate that MMHNet, trained on short video clips, can generate high-quality audio for videos exceeding 5 minutes, outperforming previous methods that struggle with longer durations.

Key Contribution

MMHNet proves you can train a video-to-audio model on short clips and have it generalize to generate coherent audio for videos over 5 minutes long.

Abstract

Scaling multimodal alignment between video and audio is challenging, particularly due to limited data and the mismatch between text descriptions and frame-level video information. In this work, we tackle the scaling challenge in multimodal-to-audio generation, examining whether models trained on short instances can generalize to longer ones during testing. To tackle this challenge, we present multimodal hierarchical networks so-called MMHNet, an enhanced extension of state-of-the-art video-to-audio models. Our approach integrates a hierarchical method and non-causal Mamba to support long-form audio generation. Our proposed method significantly improves long audio generation up to more than 5 minutes. We also prove that training short and testing long is possible in the video-to-audio generation tasks without training on the longer durations. We show in our experiments that our proposed method could achieve remarkable results on long-video to audio benchmarks, beating prior works in video-to-audio tasks. Moreover, we showcase our model capability in generating more than 5 minutes, while prior video-to-audio methods fall short in generating with long durations.

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Speech & Audio

Citation Metrics

Citations0

Influential citations0

References56

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

Related Papers