Yu-gang Jiang

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Multimodal Models (7)Robotics & Embodied AI (4)Computer Vision (2)World Models & Planning (1)

Frequent co-authors

Junke Wang (2)Zuxuan Wu (2)Zuxuan Wu (2)Yu-Gang Jiang (2)

Papers (9)

Jun 11, 2026

1w ago·also SJTU

RepWAM: World Action Modeling with Representation Visual-Action Tokenizers

Semantic visual-action tokenization in RepWAM significantly enhances robotic manipulation performance, outperforming traditional reconstruction-based approaches.

Junke Wang, Junke Wang, Qihang Zhang +13

Multimodal Models Robotics & Embodied AI World Models & Planning

Jun 9, 2026

1w ago

IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

Aligning shallow and deep features in representation autoencoders leads to a dramatic improvement in image reconstruction quality, setting new benchmarks in the field.

Yitong Chen, Zijie Diao, Junke Wang +5

Computer Vision Multimodal Models

1w ago·also BUPT, HFUT, Rimbot

UniDexTok: A Unified Dexterous Hand Tokenizer from Real Data

UniDexTok slashes reconstruction errors by over 98% for dexterous hands, achieving unprecedented accuracy without relying on retargeting.

Dong Fang, Youjun Wu, Yuanxin Zhong +4

Robotics & Embodied AI

1w ago·also ByteDance, TikTok, ZJU

ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

Reinforcement learning boosts multimodal performance, raising task scores and creating unexpected synergies between image generation and editing.

Xiao Wang, Jiacheng Pan, Xuefeng Hu +14

Multimodal Models

Jun 8, 2026

1w ago·also ByteDance, HKU

OmniGen-AR: AutoRegressive Any-to-Image Generation

OmniGen-AR can seamlessly generate images from a wide array of conditions, outperforming existing methods that are limited to single-modality inputs.

Xun Wang, Qiushan Guo, Peize Sun +2

Computer Vision Multimodal Models

1w ago·also Imperial

Teach Multimodal Recommendation Model to See via Personalized Visual Extraction and Adaptive Learning

Visual features can be the game-changer in recommendation systems, but they’re often overlooked—REVEAL flips the script by making them a focal point.

Yutong Li, Xinyi Zhang, Ziyi Ye +1

Multimodal Models Recommendation & Information Retrieval

Jun 7, 2026

2w ago·also Tsinghua AI, Shanghai Innovation, ShanghaiTech, Tencent AI

Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data

Gradual bridging with embodied trajectory-coupled data transforms VLMs into robust robot control policies, overcoming significant transfer challenges.

Linqi Yin, Shiduo Zhang, Shenling Qiu +11

Multimodal Models Robotics & Embodied AI

Jun 4, 2026

2w ago·also Current Robotics, Shanghai Innovation, Shanghai Innovation Institue

ActiveMimic: Egocentric Video Pretraining with Active Perception

ActiveMimic reveals that leveraging active perception from egocentric videos can close the performance gap with robot-pretrained models, transforming how we approach robot learning.

Xingyao Lin, Xingyao Lin, Guojin Zhong +12

Multimodal Models Robotics & Embodied AI

Apr 2, 2026

Tsinghua AIApr 2, 2026

The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Language models are increasingly doing their real work in the "invisible" latent space, not the tokens we see.

Xinlei Yu, Zhangquan Chen, Yongbo He +36

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing

Search

Yu-gang Jiang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (9)