Ye Xia

Papers on Lattice

Total citations

Topics

h-index

Research focus

Computer Vision (2)Multimodal Models (2)Natural Language Processing (1)Architecture Design (Transformers, SSMs, MoE) (1)

Frequent co-authors

Bingyi Cao (1)Bingyi Cao (1)Koert Chen (1)Koert Chen (1)

Papers (2)

Apr 13, 2026

Apr 13, 2026·also TJU

TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

Distilling patch-text alignment knowledge from a teacher model to a student surprisingly *improves* the student's alignment beyond that of the teacher.

Bingyi Cao, Bingyi Cao, Koert Chen +28

Computer Vision Multimodal Models Natural Language Processing

Feb 27, 2026

DeepMindFeb 27, 2026·also UCL

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

DINOv2's impressive unimodal performance doesn't translate to cross-modal understanding, but a simple training tweak can align embeddings across RGB, depth, and segmentation without sacrificing feature quality.

Rishabh Kabra, M. Ovsjanikov, Drew A. Hudson +5

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Search

Ye Xia

Research focus

Frequent co-authors

Papers (2)