Hongxu Yin

Papers on Lattice

Total citations

Topics

h-index

Research focus

Computer Vision (2)Multimodal Models (2)Architecture Design (Transformers, SSMs, MoE) (2)Reasoning & Chain-of-Thought (1)Inference & Quantization (1)

Frequent co-authors

Zhuoyang Zhang (2)Jan Kautz (2)Hanrong Ye (2)An-Chieh Cheng (1)

Papers (3)

May 28, 2026

NVIDIAMay 28, 2026·also Beihang, HKU, UCSD, University of California

Grounded 3D-Aware Spatial Vision-Language Modeling

Grounding boosts spatial reasoning in VLMs: explicitly linking language to 2D and 3D scene elements lets models decompose complex spatial problems and improve performance even on non-grounded tasks.

An-Chieh Cheng, Yang Fu, Yang Fu +21

Computer Vision Multimodal Models Reasoning & Chain-of-Thought

May 26, 2026

NVIDIAMay 26, 2026·also PI, UPenn

JetViT: Efficient High-Resolution Vision Transformer with Post-Training Attention Search

Get up to 1.79x faster ViT inference on high-resolution images without sacrificing accuracy by surgically replacing full-attention blocks with cheaper alternatives *after* pre-training.

Dongyun Zou, Zhuoyang Zhang, Wenkun He +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

Apr 27, 2026

NVIDIAApr 27, 2026·also Amazon Science, Microsoft Research, UW, Music X Lab +1

Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

Multimodal models can now achieve state-of-the-art performance in real-world tasks like document understanding and audio-video comprehension with significantly reduced inference latency thanks to novel token-reduction techniques.

Nvidia Amala Sanjay Deshmukh, K. Chumachenko, Tuomas Rintamaki +208

Architecture Design (Transformers, SSMs, MoE)Multimodal Models Speech & Audio