Yitong Chen

Fudan University, Shanghai Innovation Institute

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Computer Vision (4)Multimodal Models (3)Architecture Design (Transformers, SSMs, MoE) (2)Tool Use & Agents (1)

Frequent co-authors

Zuxuan Wu (3)Zuxuan Wu (2)Wei Song (2)Tianhang Wang (2)

Papers (5)

Jun 9, 2026

1d ago·also Shanghai Innovation, UMD

IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder

By leveraging the complementary strengths of shallow and deep VFM features, Ideal dramatically enhances image reconstruction quality and sets new benchmarks in autoregressive image generation.

Yitong Chen, Zijie Diao, Junke Wang +5

Computer Vision Multimodal Models

Jun 4, 2026

6d ago·also Shanghai Innovation, USTC

Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models

One-step action generation in VLA models can outperform ten-step methods by simply biasing training towards high-noise states, challenging the need for complex iterative processes.

Yitong Chen, Shiduo Zhang, Jingjing Gong +1

Multimodal Models Tool Use & Agents

May 27, 2026

2w ago·also Shanghai Collaborative Innovation Center, Shanghai Innovation

Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization

BiDPO achieves a remarkable boost in compositional fidelity for text-to-image generation, outperforming previous methods through innovative preference optimization techniques.

Zhuohan Liu, Wujian Peng, Yitong Chen +2

Computer Vision Multimodal Models RLHF & Preference Learning

May 25, 2026

2w ago·also CAS, Fudan, Westlake, ZJU

Channel-wise Vector Quantization

Forget patch-based image tokenization: channel-wise quantization unlocks better codebook utilization and text-to-image generation by representing images as discrete levels of visual detail.

Wei Song, Tianhang Wang, Yitong Chen +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

May 21, 2026

2w ago·also Fudan, HUST, Westlake, ZJU

DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders

Freezing your vision foundation model doesn't have to mean sacrificing fine-grained detail: DecQ unlocks improved reconstruction and faster generative convergence with just 8 extra queries and minimal overhead.

Tianhang Wang, Yitong Chen, Wei Song +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Search

Yitong Chen

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (5)