Hao-Xiang Guo

Papers on Lattice

Total citations

Topics

h-index

Research focus

Computer Vision (2)Multimodal Models (2)World Models & Planning (1)Speech & Audio (1)

Frequent co-authors

Ling Wang (1)Ling Wang (1)Xinzhou Wang (1)Fuchun Sun (1)

Papers (2)

Feb 26, 2026

Feb 26, 2026·also Tsinghua AI, NTU, PKU

SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation

By using optimal transport to guide cross-attention, SceneTransporter disentangles image patches and 3D latents, leading to more coherent and geometrically faithful 3D scene generation from single images.

Ling Wang, Ling Wang, Hao-Xiang Guo +13

Computer Vision Multimodal Models World Models & Planning

Feb 25, 2026

Feb 25, 2026·also Donghua University, ECNU, IBM Research, University of Louisiana at Lafayette

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Finally, a single model handles multi-modal video generation, inpainting, and editing at cinematic resolutions with synchronized audio, all while accepting diverse inputs like text, images, video clips, and audio references.

Guibin Chen, Guibin Chen, Dixuan Lin +73

Computer Vision Multimodal Models Speech & Audio

Search

Hao-Xiang Guo

Research focus

Frequent co-authors

Papers (2)