Hongming Shan

Fudan University

Papers on Lattice

Total citations

Topics

Research focus

Multimodal Models (1)Speech & Audio (1)

Frequent co-authors

Jiaxin Ye (1)Gaoxiang Cong (1)Chenhui Wang (1)Xin-Cheng Wen (1)

Papers (1)

Apr 17, 2026

Apr 17, 2026·also CAS, HIT

Hierarchical Codec Diffusion for Video-to-Speech Generation

HiCoDiT achieves superior audio-visual alignment by harnessing the hierarchical nature of speech tokens, outperforming traditional VTS methods in both fidelity and expressiveness.

Jiaxin Ye, Gaoxiang Cong, Chenhui Wang +3

Multimodal Models Speech & Audio

Search

Hongming Shan

Research focus

Frequent co-authors

Papers (1)