Naiyan Wang

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (4)Computer Vision (3)Reasoning & Chain-of-Thought (2)World Models & Planning (2)

Frequent co-authors

Zehao Huang (4)Han Li (1)Si Liu (1)Dongxin Lyu (1)

Papers (5)

Jul 23, 2026

3d ago

ViSTR-Bench: Can MLLMs Reason from Continuous Visual Cues in Dynamic Scenes?

Despite advances in MLLMs, they still struggle with dynamic reasoning, falling far short of human capabilities in interpreting continuous visual cues.

Han Li, Si Liu, Zehao Huang +6

Eval Frameworks & Benchmarks Multimodal Models Reasoning & Chain-of-Thought

Jun 30, 2026

3w ago

Generative Lane Topology Reasoning via Autoregressive Model with Geometry Prior

TopoGPT achieves a remarkable leap in lane topology reasoning, producing geometrically consistent lane graphs that outperform existing methods by substantial margins.

Zehao Huang, Naiyan Wang, Si Liu

Computer Vision World Models & Planning

Apr 20, 2026

Geometry-Guided 3D Visual Token Pruning for Video-Language Models

Pruning 90% of visual tokens without sacrificing performance could revolutionize the efficiency of 3D scene understanding in multimodal models.

Zehao Huang, Naiyan Wang

Computer Vision Inference & Quantization Multimodal Models

Jinghui Lu +51Apr 20, 2026·also CAS, Drive. We further evaluate zero-shot, HKU, NJU +2

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Latent reasoning can beat explicit Chain-of-Thought – but only if you force it to learn causal dynamics via a visual world model, not just language.

Jinghui Lu, Jiayi Guan, Zhijian Huang +49

Multimodal Models Reasoning & Chain-of-Thought World Models & Planning

Mar 3, 2026

Mar 3, 2026·also Corresponding author, V

Utonia: Toward One Encoder for All Point Clouds

Training a single point cloud encoder across diverse 3D domains not only improves perception but also unlocks emergent behaviors and enhances robotic manipulation and spatial reasoning.

Yujia Zhang, Xiaoyang Wu, Xianzhe Fan +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Search

Naiyan Wang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (5)