Jiangyang Li

VLMs often fail at spatial reasoning because they either ignore visual cues or exhibit unstable reasoning, but a novel process-shaping framework can fix this.

Jiangyang Li, Cong Wan, Changjie Wu +5

Computer Vision Multimodal Models Reasoning & Chain-of-Thought

Mar 16, 2026

Trajectory-Diversity-Driven Robust Vision-and-Language Navigation

RL agents can learn more robust vision-and-language navigation policies by exploring diverse trajectories and comparing their performance, even without expert demonstrations or value networks.

Jiangyang Li, Cong Wan, SongLin Dong +2

Computer Vision Multimodal Models Robotics & Embodied AI

Search

Jiangyang Li

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)