Tsinghua AI

×Computer Vision

80 papers from Tsinghua AI on Computer Vision

May 6, 2026

Physical Adversarial Clothing Evades Visible-Thermal Detectors via Non-Overlapping RGB-T Pattern

Adversarial clothing with non-overlapping visible-thermal patterns can reliably evade RGB-T detectors, even transferring across different fusion architectures.

Xiaopei Zhu, Guanning Zeng, Zhanhao Hu +2

Computer Vision Multimodal Models Red-Teaming & Adversarial Robustness

May 5, 2026

Tsinghua AI2w ago

SigLoMa: Learning Open-World Quadrupedal Loco-Manipulation from Ego-Centric Vision

Quadrupedal robots can now perform dynamic loco-manipulation in the real world, matching human teleoperation, using only onboard ego-centric vision and a low-frequency (5Hz) open-vocabulary detector.

Shiyi Chen, Haiyi Liu, Ming Yang +2

Computer Vision Robotics & Embodied AI World Models & Planning

May 1, 2026

Stanford HAI3w ago·also Tsinghua AI, Beihang, CUHK, HKUST +1

UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

Instead of training separate video diffusion models for each multimodal task, UniVidX learns a single model that handles diverse pixel-aligned video generation problems.

Houyuan Chen, Hong Li, Xianghao Kong +8

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Apr 30, 2026

Tsinghua AI3w ago

Auditing Frontier Vision-Language Models for Trustworthy Medical VQA: Grounding Failures, Format Collapse, and Domain Adaptation

Even the most advanced vision-language models struggle to accurately identify anatomical structures in medical images, raising serious concerns about their reliability in clinical settings.

Xupeng Chen, Binbin Shi, Chenqian Le +5

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Tsinghua AI3w ago·also BUPT, Corresponding author

Decoding Scientific Experimental Images: The SPUR Benchmark for Perception, Understanding, and Reasoning

Today's best vision-language models are surprisingly bad at reading scientific figures, failing to match expert-level reasoning on a new benchmark of experimental images.

Junpeng Ding, Zichen Tang, Zichen Tang +21

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Tsinghua AI3w ago·also Microsoft Research

CasLayout: Cascaded 3D Layout Diffusion for Indoor Scene Synthesis with Implicit Relation Modeling

Forget fully connected relation graphs: CasLayout's sparse relation modeling unlocks enhanced controllability and realism in 3D indoor scene synthesis.

Yingrui Wu, Youkang Kong, Mingyang Zhao +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Tsinghua AI3w ago·also Microsoft Research

SQuadGen: Generating Simple Quad Layouts via Chart Distance Fields

Simple, artist-friendly quad meshes can now be automatically generated on 3D shapes using a diffusion model trained on a continuous surface representation, sidestepping the complexity of discrete mesh optimization.

Youkang Kong, Yang Liu, Yang Liu +4

Architecture Design (Transformers, SSMs, MoE)Computer Vision

Apr 29, 2026

Tsinghua AI3w ago·also Fudan

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Multimodal perception is no longer just an add-on: GLM-5V-Turbo bakes it directly into the core of reasoning, planning, and action.

V Team, GLM-V Team Wenyi Hong, Wenyi Hong +88

Computer Vision Multimodal Models Tool Use & Agents

Tsinghua AI3w ago·also Xiaomi Robotics

Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Achieve real-time robotic action with 79-91% success while generating high-fidelity 4D reconstructions, all within a single unified world model.

Jun Guo, Qiwei Li, Peiyan Li +8

Computer Vision Multimodal Models Robotics & Embodied AI+1

Apr 28, 2026

Tsinghua AI3w ago

Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

Ditch the pixel-perfect edits: letting multimodal models fully *reimagine* images based on semantic understanding yields massive quality gains in refinement tasks.

Jiayi Guo, Linqing Wang, Jiangshan Wang +11

Computer Vision Multimodal Models

Tsinghua AI3w ago·also Edinburgh, UBC

Sketch2Arti: Sketch-based Articulation Modeling of CAD Objects

Imagine specifying complex 3D articulations with just a few 2D sketches – Sketch2Arti makes it a reality.

Yi Yang, Yijing Cui, Alla Sheffer +1

Computer Vision Multimodal Models Robotics & Embodied AI

Apr 23, 2026

Apr 23, 2026·also Tsinghua AI, Westlake

OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction

Achieve millimeter-level accuracy in 3D human body fitting from multi-modal inputs, even with scale distortion common in AI-generated assets.

Zeyu Cai, Yuliang Xiu, Renke Wang +8

Computer Vision Multimodal Models Robotics & Embodied AI

Apr 23, 2026·also Tsinghua AI, Hengqin Laboratory, Sheffield

Reinforcing 3D Understanding in Point-VLMs via Geometric Reward Credit Assignment

Point-VLMs can learn to see the world as it really is: targeted reward assignment and cross-modal verification nearly close the reality gap in 3D reasoning.

Jingkun Chen, Ru Xu, Mingqi Gao +2

Computer Vision Multimodal Models Robotics & Embodied AI

Tsinghua AIApr 23, 2026

UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

By unifying generative and discriminative approaches, UniGenDet achieves superior image generation and detection, suggesting that these tasks benefit from a symbiotic relationship previously hindered by architectural divergence.

Yanran Zhang, Wenzhao Zheng, Yifei Li +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Data Curation & Synthetic Data

Apr 22, 2026

Tsinghua AIApr 22, 2026·also Imperial, of CAD & CG, State Key Laboratory, ZJU

Exploring Spatial Intelligence from a Generative Perspective

Generative training not only enhances a model's ability to manipulate objects in images, but also surprisingly strengthens its spatial reasoning skills.

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng +11

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Tsinghua AIApr 22, 2026

From Scene to Object: Text-Guided Dual-Gaze Prediction

LLMs can now predict where drivers look with uncanny human-like accuracy, thanks to a new dataset and architecture that grounds attention in objects, not just scenes.

Zehong Ke, Yanbo Jiang, Jinhao Li +4

Computer Vision Multimodal Models Natural Language Processing

Apr 21, 2026

Tsinghua AIApr 21, 2026·also Sheffield

HarmoniDiff-RS: Training-Free Diffusion Harmonization for Satellite Image Composition

Training-free diffusion models can now harmonize satellite imagery across diverse domains, enabling scalable remote-sensing synthesis without retraining.

Xiaoqi Zhuang, Jefersson A. Dos Santos

Computer Vision Data Curation & Synthetic Data

Apr 21, 2026·also Tsinghua AI, Sen University

Structure-Semantic Decoupled Modulation of Global Geospatial Embeddings for High-Resolution Remote Sensing Mapping

Stop fragmented land cover predictions: SSDM leverages global geospatial embeddings to guide local feature extraction, achieving state-of-the-art performance in high-resolution remote sensing mapping.

Jienan Lyu, Miao Yang, Jinchen Cai +4

Computer Vision Multimodal Models

Tsinghua AIApr 21, 2026

Diff-SBSR: Learning Multimodal Feature-Enhanced Diffusion Models for Zero-Shot Sketch-Based 3D Shape Retrieval

Freezing a Stable Diffusion backbone and injecting CLIP and BLIP features lets you beat the state-of-the-art in zero-shot sketch-based 3D shape retrieval, without any costly retraining.

Hang Cheng, Fanhe Dong, Fanhe Dong +1

Computer Vision Multimodal Models Recommendation & Information Retrieval

Apr 20, 2026

Tsinghua AIApr 20, 2026·also HIT

Multi-View Hierarchical Graph Neural Network for Sketch-Based 3D Shape Retrieval

MV-HGNN achieves superior 3D shape retrieval by effectively leveraging geometric dependencies and semantic alignment, outperforming existing methods in zero-shot settings.

Hang Cheng, Muyan He, Mingyu Fan +3

Computer Vision Multimodal Models Recommendation & Information Retrieval

Apr 20, 2026·also Tsinghua AI, PKU

Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models

VLAs can learn to adapt to new environments at test time without any fine-tuning, achieving significant performance gains on robotic manipulation and Atari games.

Zehua Zang, Fuchun Sun, Xiao Xu +3

Computer Vision Multimodal Models Robotics & Embodied AI

Apr 20, 2026·also DAMO, Tsinghua AI, BUPT

UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

RL fine-tuning of discrete diffusion models can be made dramatically more stable and effective by treating the final denoised sample as the action and reconstructing trajectories using the forward diffusion process.

Jiaqi Wang, Haoge Deng, Ting Pan +10

Architecture Design (Transformers, SSMs, MoE)Computer Vision RLHF & Preference Learning+1

Apr 18, 2026

Apr 18, 2026·also Tsinghua AI, Baidu, SJTU, TJU

MNAFT: modality neuron-aware fine-tuning of multimodal large language models for image translation

Targeted neuron fine-tuning can unlock superior image translation capabilities in multimodal large language models, outperforming traditional methods by preserving pre-trained knowledge.

Ningyuan Deng, Tianyu Dong, Shaobo Wang +2

Computer Vision Multimodal Models

Apr 17, 2026

Tsinghua AIApr 17, 2026·also Beihang, HKU, PKU, Tencent AI

Repurposing 3D Generative Model for Autoregressive Layout Generation

Autoregressive 3D layout generation can be both more physically plausible and significantly faster by repurposing existing 3D generative models.

Haoran Feng, Yifan Niu, Zehuan Huang +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Apr 16, 2026

Tsinghua AIApr 16, 2026

Beyond Visual Cues: Semantic-Driven Token Filtering and Expert Routing for Anytime Person ReID

Forget relying on fickle visuals: this new ReID method uses language to describe *who* a person is, not just what they look like, and it crushes existing benchmarks.

Jiaxuan Li, Xin Wen, Zhihang Li

Computer Vision Multimodal Models Recommendation & Information Retrieval

Apr 15, 2026

Apr 15, 2026·also Tsinghua AI, Li Auto, PolyU

PostureObjectstitch: Anomaly Image Generation Considering Assembly Relationships in Industrial Scenarios

Synthesizing realistic anomaly images for industrial assembly is now possible thanks to a diffusion model that respects component pose and assembly relationships.

Zebei Tong, Hongchang Chen, Yujie Lei +4

Computer Vision Data Curation & Synthetic Data

Tsinghua AIApr 15, 2026·also Kuaishou

DiffMagicFace: Identity Consistent Facial Editing of Real Videos

Achieve photorealistic, identity-consistent facial video edits from text prompts without video training data, rivaling traditional rendering software.

Huanghao Yin, Shenkun Xu, Kanle Shi +1

Computer Vision Multimodal Models

Tsinghua AIApr 15, 2026·also AI Laboratory, Corresponding author are Bo Cheng and Soujanya, Tencent AI, USTC

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Imagine creating high-fidelity, navigable 3D worlds from just a text prompt or a single image – HY-World 2.0 makes it a reality.

Team HY-World, Chenjie Cao, Xuhui Zuo +42

Computer Vision Multimodal Models World Models & Planning

Apr 14, 2026

Apr 14, 2026·also Tsinghua AI, CAU, Northeastern, Southwest Jiaotong University

GTPBD-MM: A Global Terraced Parcel and Boundary Dataset with Multi-Modality

Extracting agricultural parcels from satellite imagery gets a whole lot harder (and more realistic) with a new dataset focused on the complex, irregular, and heterogeneous terrain of terraced farms.

Zhiwei Zhang, Xingyuan Zeng, Xinkai Kong +6

Computer Vision Data Curation & Synthetic Data Multimodal Models

Apr 13, 2026

Tsinghua AIApr 13, 2026·also HKU

Efficient Transceiver Design for Aerial Image Transmission and Large-scale Scene Reconstruction

Achieve superior 3D scene reconstruction from aerial images with significantly reduced transmission overhead by directly optimizing communication for rendering quality.

Zeyi Ren, Jialin Dong, Wei Zuo +4

Computer Vision Robotics & Embodied AI Training Efficiency & Optimization

Apr 13, 2026·also Tsinghua AI, ZJU

Bridging the RGB-IR Gap: Consensus and Discrepancy Modeling for Text-Guided Multispectral Detection

By explicitly modeling both consensus and discrepancy between RGB and IR data, this text-guided multispectral object detector significantly boosts performance on multispectral benchmarks.

Zhen Wang, Enhao Huang, Kangqing Shen +1

Computer Vision Multimodal Models Natural Language Processing

Tsinghua AIApr 13, 2026·also Guangming Laboratory, NJU, PolyU

LottieGPT: Tokenizing Vector Animation for Autoregressive Generation

Finally, a model that speaks fluent Lottie: LottieGPT generates editable vector animations directly from text or images, opening up a new frontier for resolution-independent, compact, and semantically structured multimedia creation.

Junhao Chen, Kejun Gao, Yuehan Cui +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Tsinghua AIApr 13, 2026·also China University of Petroleum (Beijing), Heavy Oil Processing, Key Laboratory, School of Software

Sparse Hypergraph-Enhanced Frame-Event Object Detection with Fine-Grained MoE

Achieve state-of-the-art object detection accuracy and efficiency by fusing RGB frames and event streams with a sparse hypergraph and a fine-grained mixture of experts, enabling real-time edge deployment.

Wei Bao, Yuehan Wang, Tianhang Zhou +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Apr 12, 2026

Tsinghua AIApr 12, 2026·also BAIR, Fudan, Shanghai Qi Zhi Institute

AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Afford Correspondence

Unlock zero-shot generalization in robot manipulation by generating diverse, affordance-aware training data with 3D generative models and Vision Foundation Models.

Kaizhe Hu, Yingqian Huang, Yuanchen Ju +2

Computer Vision Data Curation & Synthetic Data Robotics & Embodied AI

Apr 10, 2026

Apr 10, 2026·also Tsinghua AI, Futian Laboratory

TAIHRI: Task-Aware 3D Human Keypoints Localization for Close-Range Human-Robot Interaction

Robots can now focus on the *right* body parts for interaction, thanks to a new vision-language model that understands human motion commands and precisely localizes task-relevant 3D keypoints.

Yonggen Ling, Yiyang Lin, Yuji Wang

Computer Vision Robotics & Embodied AI

Tsinghua AIApr 10, 2026

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

Achieve real-time (40 FPS at 720p) interactive video generation with minute-long memory consistency using a 5B parameter world model.

Zile Wang, Zexiang Liu, Jaixing Li +17

Computer Vision Multimodal Models World Models & Planning

Apr 9, 2026

Tsinghua AIApr 9, 2026·also BUPT, School of Information Science and Technology

Lost in the Hype: Revealing and Dissecting the Performance Degradation of Medical Multimodal Large Language Models in Image Classification

Medical MLLMs, despite their size and training data, stumble on basic image classification due to four key failure modes, revealing a disconnect between hype and clinical readiness.

Xun Zhu, Fanbin Mo, Kaili Zheng +6

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Tsinghua AIApr 9, 2026

EditCaption: Human-Aligned Instruction Synthesis for Image Editing via Supervised Fine-Tuning and Direct Preference Optimization

Turns out, you can cut critical errors in VLM-generated image editing instructions in half with a clever two-stage training pipeline, leading to SOTA editing performance.

Xiangyuan Wang, Honghao Cai, Yunhao Bai +6

Computer Vision Data Curation & Synthetic Data Multimodal Models

Apr 9, 2026·also Tsinghua AI, PKU

GALA: Multimodal Graph Alignment for Bug Localization in Automated Program Repair

LLMs can now leverage visual structure, not just text, to pinpoint bugs in multimodal programs, thanks to a novel graph alignment approach that bridges the gap between GUI screenshots and code.

Zhuoyao Liu, Z. Zeng, Zhengran Zeng +3

Code Generation & Program Synthesis Computer Vision Multimodal Models

Tsinghua AIApr 9, 2026·also BIT, BJTU

GroundingAnomaly: Spatially-Grounded Diffusion for Few-Shot Anomaly Synthesis

Synthesizing realistic anomalies for industrial inspection is now possible with just a few examples, thanks to spatially-grounded diffusion that outperforms existing inpainting techniques.

Yisheng Liu, Yishen Liu, Hongcang Chen +8

Computer Vision Data Curation & Synthetic Data

Tsinghua AIApr 9, 2026

SurfelSplat: Learning Efficient and Generalizable Gaussian Surfel Representations for Sparse-View Surface Reconstruction

Ditch the slow per-scene optimization: SurfelSplat reconstructs surfaces from sparse views in under a second, matching state-of-the-art accuracy with a 100x speedup.

Chensheng Dai, Shengjun Zhang, Yueqi Duan

Architecture Design (Transformers, SSMs, MoE)Computer Vision Robotics & Embodied AI+1

Apr 8, 2026

Tsinghua AIApr 8, 2026·also Chongqing Changan Automobile Co.

Geo-EVS: Geometry-Conditioned Extrapolative View Synthesis for Autonomous Driving

Synthesizing novel views from extrapolated poses no longer requires dense supervision, thanks to a geometry-conditioned diffusion model that explicitly learns to handle out-of-trajectory artifacts.

Yatong Lan, Rongkui Tang, Lei He

Computer Vision Robotics & Embodied AI World Models & Planning

Tsinghua AIApr 8, 2026·also CUHK, Duke, HKUST

PRISM: Rethinking Scattered Atmosphere Reconstruction as a Unified Understanding and Generation Model for Real-world Dehazing

Achieve state-of-the-art real-world image dehazing by jointly reconstructing the clear scene and scattering variables, even with non-uniform haze and complex lighting.

Chengyu Fang, Chunming He, Chubin Chen +3

Computer Vision

Tsinghua AIApr 8, 2026·also BaiyunPort, Gannan Normal University, NYU, Sanda University +4

Balancing Efficiency and Restoration: Lightweight Mamba-Based Model for CT Metal Artifact Reduction

Achieve state-of-the-art metal artifact reduction in CT images with MARMamba, a Mamba-based model that's both lightweight and preserves anatomical structure.

Weikai Qu, Weikai Qu, Sijun Liang +17

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Apr 8, 2026·also DAMO, Tsinghua AI, CAS

ReAlign: Optimizing the Visual Document Retriever with Reasoning-Guided Fine-Grained Alignment

Forget global context – ReAlign leverages a stronger VLM to generate *local*, reasoning-guided descriptions that boost visual document retrieval by up to 2%.

Yifan Ji, Yukun Yan, Shuo Wang +2

Computer Vision Multimodal Models Recommendation & Information Retrieval

Apr 7, 2026

Tsinghua AIApr 7, 2026·also CAS, College of Computer and Data Science

Weather-Conditioned Branch Routing for Robust LiDAR-Radar 3D Object Detection

Achieve state-of-the-art 3D object detection in adverse weather by adaptively routing between LiDAR, radar, and fused features based on learned weather conditions.

Hongsheng Li, Zexian Yang, Rong Yin

Computer Vision Multimodal Models Robotics & Embodied AI

Apr 6, 2026

Tsinghua AIApr 6, 2026

Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?

Frontier video models like Veo-3 can generate surprisingly good task-level plans for robot manipulation, but still need help with the fine details.

Zhongru Zhang, Cheng‐Chuan Yang, Chenghan Yang +4

Computer Vision Robotics & Embodied AI World Models & Planning

Tsinghua AIApr 6, 2026·also Key Laboratory of Marine Robotics

WaterSplat-SLAM: Photorealistic Monocular SLAM in Underwater Environment

Finally, underwater SLAM can produce photorealistic maps thanks to a novel medium-aware Gaussian map representation.

Kangxu Wang, Shaofeng Zou, Chenxing Jiang +4

Computer Vision Robotics & Embodied AI

Mar 31, 2026

Tsinghua AIMar 31, 2026·also NJU, PKU

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

GPT-5 can only solve 37% of PhD-level 3D geometry coding problems, suggesting AI can't reliably automate complex scientific coding tasks yet.

Renkai Luo, Huan-ang Gao, Mingju Gao

Code Generation & Program Synthesis Computer Vision Eval Frameworks & Benchmarks

Tsinghua AIMar 31, 2026·also Duke, EPFL

Beyond Ground-Truth: Leveraging Image Quality Priors for Real-World Image Restoration

Stop training your image restoration models to mimic flawed ground truth; instead, explicitly optimize for perceptual quality using a plug-and-play module guided by No-Reference Image Quality Assessment.

Fengyang Xiao, Peng Hu, Lei Xu +7

Computer Vision Data Curation & Synthetic Data

Search

Tsinghua AI