Haoyang Huang

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (3)Computer Vision (2)Inference & Quantization (2)Data Curation & Synthetic Data (2)

Frequent co-authors

Nan Duan (4)Zeyue Xue (2)Siming Fu (2)Jie Huang (2)

Papers (5)

Apr 28, 2026

Zeyue Xue +11Apr 28, 2026

A Systematic Post-Train Framework for Video Generation

Unlock the full potential of your pretrained video diffusion models with a surprisingly simple four-stage post-training framework that drastically improves visual quality, temporal coherence, and instruction following.

Zeyue Xue, Siming Fu, Jie Huang +9

Computer Vision Inference & Quantization Training Efficiency & Optimization

Apr 22, 2026

Tianle Zhang +58Apr 22, 2026·also BC Cancer Agency, JD Group JD Technology, Northeastern, UBC +1

JoyAI-RA 0.1: A Foundation Model for Robotic Autonomy

Bridging the gap between human manipulation and robotic control, JoyAI-RA unlocks enhanced cross-embodiment behavior learning through multi-source pretraining.

Tianle Zhang, Zhihao Yuan, Dafeng Chi +56

Data Curation & Synthetic Data Multimodal Models Robotics & Embodied AI

Apr 8, 2026

Jianhui Liu +13Apr 8, 2026·also Huawei

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Spatial reasoning gets a major boost: OpenSpatial-3M, a new dataset, enables models to leapfrog existing benchmarks by 19%.

Jianhui Liu, Haoze Sun, Wenbo Li +11

Data Curation & Synthetic Data Open-Source Models & Weights Robotics & Embodied AI

Apr 6, 2026

Yicheng Xiao +6Apr 6, 2026·also Tsinghua AI, CityU, JD Explore Academy

SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

Existing image editing models fall short when it comes to precise spatial manipulations, but a new benchmark and dataset reveal the path to closing the gap.

Yicheng Xiao, Wenhu Zhang, Lin Song +4

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Mar 12, 2026

Mar 12, 2026·also NVIDIA, SJTU, ZJU

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Achieve real-time, synchronized audio-visual generation at 25 FPS by distilling a bidirectional diffusion model into a fast, autoregressive architecture, overcoming training instability with novel alignment and token handling techniques.

Yaofeng Su, Yuming Li, Yuming Li +8

Inference & Quantization Multimodal Models Speech & Audio

Search

Haoyang Huang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (5)