Gaoxiang Cong

Chinese Academy of Sciences, University of Chinese Academy of Sciences

Papers on Lattice

Total citations

Topics

Research focus

Multimodal Models (1)Speech & Audio (1)

Frequent co-authors

Jiaxin Ye (1)Chenhui Wang (1)Xin-Cheng Wen (1)Boyuan Cao (1)

Papers (1)

Apr 17, 2026

Apr 17, 2026·also CAS, HIT

Hierarchical Codec Diffusion for Video-to-Speech Generation

HiCoDiT achieves superior audio-visual alignment by harnessing the hierarchical nature of speech tokens, outperforming traditional VTS methods in both fidelity and expressiveness.

Jiaxin Ye, Gaoxiang Cong, Chenhui Wang +3

Multimodal Models Speech & Audio

Search

Gaoxiang Cong

Research focus

Frequent co-authors

Papers (1)