Yuji Wang

Shanghai Jiao Tong University

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (4)Computer Vision (4)Robotics & Embodied AI (2)Data Curation & Synthetic Data (1)

Frequent co-authors

Yuheng Chen (2)Teng Hu (2)Qingdong He (2)Lizhuang Ma (2)

Papers (6)

Jun 8, 2026

2d ago·also NTU, UESTC, UTokyo, ZJU

CineDance: Towards Next-Generation Multi-Shot Long-Form Cinematic Audio-Video Generation

CineDance-1M sets a new standard for open-source cinematic audio-video generation, boasting over 1 million high-quality, structured video samples that could transform the landscape of multimedia AI.

Yuheng Chen, Teng Hu, Yuji Wang +7

Data Curation & Synthetic Data Multimodal Models Speech & Audio

Jun 1, 2026

1w ago·also UESTC, ZJU

Spatial-Temporal Decoupled Reference Conditioning for Identity-Preserving Text-to-Video Generation

Achieving top-tier identity preservation in text-to-video generation without compromising on semantic fidelity, ST-DRC redefines the standards for high-quality video synthesis.

Yuheng Chen, Teng Hu, Yuji Wang +3

Computer Vision Multimodal Models

May 21, 2026

Deyi Zhu +22w ago·also SJTU

Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

SAMOSA makes SAM-based tracking robust to complex motion and occlusions by explicitly modeling target dynamics and enforcing geometric and semantic consistency across frames.

Deyi Zhu, Yuji Wang, Bingyao Yu

Computer Vision Multimodal Models Robotics & Embodied AI

Apr 10, 2026

Apr 10, 2026·also Tsinghua AI, Futian Laboratory, SJTU

TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction

Robots can now focus on the *right* body parts for interaction, thanks to a new vision-language model that understands human motion commands and precisely localizes task-relevant 3D keypoints.

Yonggen Ling, Yiyang Lin, Yuji Wang

Computer Vision Robotics & Embodied AI

Apr 7, 2026

Rixiang Ni +11Apr 7, 2026·also SJTU

Rethinking IRSTD: Single-Point Supervision Guided Encoder-only Framework is Enough for Infrared Small Target Detection

Rethinking IRSTD as a centroid regression problem with single-point supervision achieves competitive detection performance with significantly reduced computational cost, challenging the dominance of pixel-level segmentation approaches.

Rixiang Ni, Rixiang Ni, Boyang Li +9

Computer Vision

Feb 14, 2026

Feb 14, 2026·also Kuaishou, University of Science and Technology

Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

Forget generic CoT: Embed-RL uses reinforcement learning to generate reasoning traces that are explicitly optimized for multimodal embedding tasks, leading to significant performance gains.

Haonan Jiang, Yuji Wang, Yongjie Zhu +3

Multimodal Models Reasoning & Chain-of-Thought RLHF & Preference Learning

Search

Yuji Wang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (6)