Zuxuan Wu

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Robotics & Embodied AI (6)Multimodal Models (6)Computer Vision (3)World Models & Planning (2)

Frequent co-authors

Yu-Gang Jiang (4)Ziyi Ye (3)Yu-Gang Jiang (3)Guojin Zhong (2)

Papers (9)

Jul 22, 2026

Zuhao Ge +114d ago

EgoRecovery: Acquiring Failure Recovery Ability Through Human Recovery Demonstration

Human demonstrations can yield over 10x the recovery data for robots, dramatically enhancing their ability to recover from failures in real-world tasks.

Zuhao Ge, Yuchen Zhou, Yuchen Zhou +9

Robotics & Embodied AI

Jun 29, 2026

Tsinghua AI3w ago

Seeing Touch from Motion: A Unified Modality-Aware Visuo-Tactile Policy with Tactile Motion Correlation

Fine-grained contact states can be distinguished through the dynamic correlation of tactile motion, transforming how we approach contact-rich manipulation in robotics.

Shengqi Xu, Guojin Zhong, Yang Liu +7

Multimodal Models Robotics & Embodied AI

Jun 11, 2026

RepWAM: World Action Modeling with Representation Visual-Action Tokenizers

Semantic visual-action tokenization in RepWAM significantly enhances robotic manipulation performance, outperforming traditional reconstruction-based approaches.

Junke Wang, Junke Wang, Qihang Zhang +10

Multimodal Models Robotics & Embodied AI World Models & Planning

Jun 4, 2026

Jun 4, 2026·also Current Robotics, Shanghai Innovation, Shanghai Innovation Institue

ActiveMimic: Egocentric Video Pretraining with Active Perception

ActiveMimic reveals that leveraging active perception from egocentric videos can close the performance gap with robot-pretrained models, transforming how we approach robot learning.

Xingyao Lin, Xingyao Lin, Guojin Zhong +8

Multimodal Models Robotics & Embodied AI

May 28, 2026

Shengyun Si +5May 28, 2026

VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models

Forget fine-tuning: VLA-Pro dynamically fuses task-specific LoRA adapters retrieved from memory to achieve state-of-the-art cross-task generalization in robotic manipulation.

Shengyun Si, Yuan Lu, Ruimeng Yang +3

Multimodal Models Robotics & Embodied AI World Models & Planning

May 27, 2026

Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

BiDPO achieves a remarkable boost in compositional fidelity for text-to-image generation, outperforming previous methods through innovative preference optimization techniques.

Wujian Peng, Zuxuan Wu

Computer Vision Multimodal Models RLHF & Preference Learning

May 25, 2026

May 25, 2026·also CAS, Fudan, Westlake, ZJU

Channel-wise Vector Quantization

Forget patch-based image tokenization: channel-wise quantization unlocks better codebook utilization and text-to-image generation by representing images as discrete levels of visual detail.

Wei Song, Tianhang Wang, Tong Zhang +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

May 21, 2026

May 21, 2026·also Fudan, Westlake, ZJU

DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders

Freezing your vision foundation model doesn't have to mean sacrificing fine-grained detail: DecQ unlocks improved reconstruction and faster generative convergence with just 8 extra queries and minimal overhead.

Tianhang Wang, Wei Song, Zuxuan Wu

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Apr 14, 2026

UT AustinApr 14, 2026·also Fudan, UW-Madison

HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models

VLA models can ace the task but still trigger unsafe outcomes, exposing a critical gap between action execution and semantic understanding.

Yifeng Gao, Yunhan Zhao, Jiayu Li +2

Eval Frameworks & Benchmarks Multimodal Models Robotics & Embodied AI

Search

Zuxuan Wu

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (9)