Jiaqi Wang

Shanghai Innovation Institute, B [26] visual backbone. The action head is a conditional Flow Matching network implemented via an 8-layer Diffusion Transformer (DiT [16]) with a 1024 hidden dimension, trained to predict trajectories of horizon T=, Key Laboratory of New Generation Artificial Intelligence Technology and Its Interdisciplinary Applications, Ministry of Education, China

Papers on Lattice

Total citations

Topics

h-index

Research focus

Computer Vision (1)Multimodal Models (1)Reasoning & Chain-of-Thought (1)

Frequent co-authors

Jinsong Li (1)Xiao-wen Dong (1)Xiaoyi Dong (1)Yuhang Zang (1)

Papers (1)

Feb 18, 2026

Feb 18, 2026·also Microsoft Research, NTU, Shanghai Innovation

Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing

By mimicking how humans use visual anchors, ChartVSR lets models iteratively correct their own visual perception errors, leading to more accurate chart parsing.

Jinsong Li, Xiao-wen Dong, Xiaoyi Dong +3

Computer Vision Multimodal Models Reasoning & Chain-of-Thought

Search

Jiaqi Wang

Research focus

Frequent co-authors

Papers (1)