Ziwei Liu

This work was supported in part by the National Natural Science Foundation of China under Grant T2388101, in part by the Huawei Industry-University Cooperation Project under Grant TC20250106029, and in part by the Pre-research Task (No. SKLRS202408B) of the State Key Laboratory of Robotics and Systems, Harbin Institute of Technology

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (6)Computer Vision (4)Robotics & Embodied AI (2)Eval Frameworks & Benchmarks (2)

Frequent co-authors

Yifei Shen (2)Zihao Huang (1)Tianqi Liu (1)Zhaoxi Chen (1)

Papers (6)

Mar 4, 2026

Mar 4, 2026·also NTU

ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors

Zero-shot synthesis of articulated human-object interactions is now possible by treating diffusion-generated videos as supervision for 4D scene reconstruction, unlocking physically grounded interactions beyond rigid manipulation.

Zihao Huang, Tianqi Liu, Zhaoxi Chen +8

Computer Vision Multimodal Models Robotics & Embodied AI

Mar 3, 2026

Mar 3, 2026·also Huawei, Shanghai AI Lab

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Unified multimodal models often *hurt* performance on multimodal understanding tasks, except for spatial reasoning, visual illusions, and multi-round reasoning, challenging the assumption that generation universally improves understanding.

Zimo Wen, Zimo Wen, Boxiu Li +15

Eval Frameworks & Benchmarks Multimodal Models

Feb 24, 2026

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

Achieve 10% higher success rates in robotic manipulation tasks while speeding up inference by 1.5-1.8x by intelligently pruning visual tokens in multi-view Vision-Language-Action models.

Haosheng Li, Weixin Mao, Zihan Lan +5

Inference & Quantization Multimodal Models Robotics & Embodied AI

Feb 23, 2026

Feb 23, 2026·also Auburn University, Huawei, JHU, Northeastern +8

A Very Big Video Reasoning Suite

A 1000x larger video reasoning dataset reveals early signs of emergent generalization, offering a new foundation for training and evaluating spatiotemporal AI.

Maijunxian Wang, Ruisi Wang, Ruisi Wang +79

Computer Vision Eval Frameworks & Benchmarks Multimodal Models+1

Feb 22, 2026

NUSFeb 22, 2026·also Huawei, UofT

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

Achieve SOTA joint audio-video generation with JavisDiT++ using just 1M public training examples, rivaling performance of models trained on proprietary datasets.

Kai Liu, Yanhao Zheng, Yanhao Zheng +12

Computer Vision Multimodal Models Speech & Audio

Feb 9, 2026

Feb 9, 2026·also Imperial

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

Turns out, skipping the boring parts of a video (like static backgrounds) makes your vision AI both faster and smarter, beating state-of-the-art models with less data.

Feilong Tang, Xiang An, Yunyao Yan +15

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Search

Ziwei Liu

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (6)