Jiaxin Ye

Fudan University

Papers on Lattice

Total citations

Topics

Research focus

Multimodal Models (2)Speech & Audio (2)Computer Vision (1)

Frequent co-authors

Gaoxiang Cong (1)Chenhui Wang (1)Xin-Cheng Wen (1)Boyuan Cao (1)

Papers (2)

Apr 17, 2026

Apr 17, 2026·also CAS, HIT

Hierarchical Codec Diffusion for Video-to-Speech Generation

HiCoDiT achieves superior audio-visual alignment by harnessing the hierarchical nature of speech tokens, outperforming traditional VTS methods in both fidelity and expressiveness.

Jiaxin Ye, Gaoxiang Cong, Chenhui Wang +3

Multimodal Models Speech & Audio

Apr 14, 2026

Gaoxiang Cong +6Apr 14, 2026·also ByteDance, Fudan

CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

Achieve significantly more realistic and lip-synced movie dubbing by modeling the cognitive processes of professional actors with a novel diffusion transformer architecture.

Gaoxiang Cong, Liang Li, Jiaxin Ye +4

Computer Vision Multimodal Models Speech & Audio

Search

Jiaxin Ye

Research focus

Frequent co-authors

Papers (2)