Yuhang Zang

Shanghai AI Laboratory, Shanghai AI Lab, Nanyang Technological University

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (6)Computer Vision (5)RLHF & Preference Learning (3)Reasoning & Chain-of-Thought (2)

Frequent co-authors

Shengyuan Ding (2)Xuanlang Dai (2)Kai Chen (2)Jiazi Bu (2)

Papers (8)

Jun 2, 2026

Tsinghua AI2w ago·also Beihang, NTU, Shanghai AI Lab

OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

Streaming spatial intelligence remains a significant hurdle for multimodal LLMs, with top models trailing human experts by 27 points in allocentric mapping tasks.

Yifei Li, Peng Liu, Yuhang Zang +4

Eval Frameworks & Benchmarks Multimodal Models Robotics & Embodied AI

May 27, 2026

3w ago·also NTU, Shanghai AI Lab

Skill-as-Pseudocode: Refactoring Skill Libraries to Pseudocode for LLM Agents

LLM agents can achieve a remarkable 82 wins out of 402 games by leveraging structured pseudocode, transforming how they interact with skill libraries.

Xinze Li, Yuhang Zang, Aixin Sun

Code Generation & Program Synthesis Natural Language Processing Tool Use & Agents

Mar 13, 2026

Mar 13, 2026·also BUPT, Fudan, NTU, Shanghai AI Lab +2

Visual-ERM: Reward Modeling for Visual Equivalence

Forget textual rules and coarse embeddings: a multimodal reward model that directly compares rendered visuals unlocks significant gains in vision-to-code RL.

Ziyu Liu, Shengyuan Ding, Xinyu Fang +4

Computer Vision Multimodal Models RLHF & Preference Learning

Mar 13, 2026·also Stanford HAI, NTU, Shanghai Jiaotong University

From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Text-to-image flow models can achieve superior preference alignment by augmenting the condition space, creating a "dense" reward mapping that better captures inter-sample relationships.

Jiazi Bu, Jiazi Bu, Pengyang Ling +8

Computer Vision Multimodal Models RLHF & Preference Learning

Mar 12, 2026

Mar 12, 2026·also NTU

Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Hallucinations in RL-based image editing and generation are tamed with FIRM, a new framework that trains robust reward models on curated datasets to provide more accurate guidance.

Xiangyu Zhao, Peiyuan Zhang, Junming Lin +8

Computer Vision Multimodal Models RLHF & Preference Learning

Mar 12, 2026·also Beihang, BUPT, CUHK, Fudan +3

EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Diffusion models can now reason their way through complex spatial tasks with near-perfect accuracy, thanks to a new framework that unlocks chain-of-thought reasoning within the latent space.

Xuanlang Dai, X. Dai, Yujie Zhou +7

Computer Vision Multimodal Models Reasoning & Chain-of-Thought

Feb 18, 2026

Feb 18, 2026·also Microsoft Research, NTU, Shanghai Innovation

Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing

By mimicking how humans use visual anchors, ChartVSR lets models iteratively correct their own visual perception errors, leading to more accurate chart parsing.

Jinsong Li, Xiao-wen Dong, Xiaoyi Dong +3

Computer Vision Multimodal Models Reasoning & Chain-of-Thought

Feb 18, 2025

Feb 18, 2025·also NVIDIA, NTU, Shanghai AI Lab

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Ditch the clunky pipelines: SongGen generates complete songs from text in a single pass, offering unprecedented control over musical elements and voice cloning.

Zihan Liu, Shuangrui Ding, Zhixiong Zhang +623

Architecture Design (Transformers, SSMs, MoE)Open-Source Models & Weights Speech & Audio

Search

Yuhang Zang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (8)