Zerong Lin

National Anti-Counterfeit Engineering Research Center, Huazhong University of Science and Technology, V generation refers to text-and-image-to-video generation, where both text and image prompts are used as inputs.

Papers on Lattice

Total citations

Topics

Research focus

Computer Vision (1)Multimodal Models (1)Red-Teaming & Adversarial Robustness (1)

Frequent co-authors

Bowen Zheng (1)Yongli Xiang (1)

Papers (1)

Feb 24, 2026

Feb 24, 2026·also HUST, Sydney, V generation refers to text-and-image-to-video generation, Zayed University of Artificial

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Image-to-video models can be jailbroken by hiding malicious instructions in seemingly harmless reference images, achieving an 83.5% attack success rate on commercial systems.

Bowen Zheng, Yongli Xiang, Zerong Lin

Computer Vision Multimodal Models Red-Teaming & Adversarial Robustness

Search

Zerong Lin

Research focus

Frequent co-authors

Papers (1)