HFUTApr 30, 2025

BMFNet: Bidirectional Multimodal Fusion Network for image captioning

Lixia Xue, ZiQian Jin, Ronggui Wang, Juan Yang

AI Summary

A Bidirectional Multimodal Fusion Network (BMFNet) for image captioning is proposed, which provides deep interaction and fusion of multiple features throughout the encoding and decoding process, and significantly enhances the model’s cross-modal reasoning capability.

Citation Metrics

Citations4

Influential citations0

References51

Year2025

VenueMultimedia Systems

Related Papers

Finding related papers...

Search

BMFNet: Bidirectional Multimodal Fusion Network for image captioning

Related Papers