Deepti Ghadiyaram

Research focus

Multimodal Models (2)Red-Teaming & Adversarial Robustness (2)Computer Vision (2)Speech & Audio (1)Architecture Design (Transformers, SSMs, MoE) (1)

Frequent co-authors

Tianle Chen (1)Jason Qiu (1)Jason Qiu (1)Zachary Meurer (1)

Papers (3)

Apr 5, 2026

Tianle Chen +1Apr 5, 2026

A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning

Coordinated typographic attacks across modalities can more than double the success rate of misleading audio-visual MLLMs compared to single-modality attacks.

Tianle Chen, Deepti Ghadiyaram

Multimodal Models Red-Teaming & Adversarial Robustness Speech & Audio

Apr 2, 2026

Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

VLMs, despite excelling at semantic tasks, are surprisingly brittle when faced with basic geometric transformations like rotations and scaling.

Jason Qiu, Jason Qiu, Zachary Meurer +5

Computer Vision Multimodal Models Red-Teaming & Adversarial Robustness

Feb 19, 2026

Dahye Kim +4Feb 19, 2026

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

Diffusion Transformers get a 3x speed boost without sacrificing image quality, thanks to a clever trick of dynamically adjusting patch sizes during denoising.

Dahye Kim, Dahye Kim, Deepti Ghadiyaram +2

Architecture Design (Transformers, SSMs, MoE)Computer Vision Training Efficiency & Optimization

Search

Deepti Ghadiyaram

Research focus

Frequent co-authors

Papers (3)