Shikun Zhang

Papers on Lattice

Total citations

Topics

h-index

Research focus

Multimodal Models (4)Computer Vision (2)Natural Language Processing (2)Data Curation & Synthetic Data (2)Code Generation & Program Synthesis (2)

Frequent co-authors

Wei Ye (6)Chaoya Jiang (2)Z. Zeng (2)Zhengran Zeng (2)

Papers (7)

Apr 26, 2026

Zhen Ye +10Apr 26, 2026

Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

Disentangling high-level cross-modal reasoning from low-level modality-specific refinement in talking head generation yields superior lip-sync accuracy, video quality, and audio quality compared to entangled approaches.

Zhen Ye, Xu Tan, Aoxiong Yin +8

Computer Vision Multimodal Models Speech & Audio

Apr 20, 2026

Apr 20, 2026·also SDU

EVE: Verifiable Self-Evolution of MLLMs via Executable Visual Transformations

Executable visual transformations enable MLLMs to achieve continuous self-evolution without the pitfalls of pseudo-labels, leading to superior performance in dynamic VQA tasks.

Yongrui Heng, Chaoya Jiang, Shikun Zhang +1

Multimodal Models Scalable Oversight & Alignment Theory

Apr 13, 2026

Hebei University of TechnologyApr 13, 2026·also PKU

Retrieval as Generation: A Unified Framework with Self-Triggered Information Planning

Forget external retrieval controllers: GRIP lets your language model decide when and how to retrieve information, all within its own token-level decoding process.

Mingda Wang, Gexiang Fang, Shikun Zhang +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Recommendation & Information Retrieval

Apr 9, 2026

Shikun Zhang +1Apr 9, 2026

Data Selection for Multi-turn Dialogue Instruction Tuning

Noisy multi-turn dialogue data hurts instruction tuning, but selecting entire conversations based on topic grounding and information flow yields surprisingly robust models.

Shikun Zhang, Wei Ye

Data Curation & Synthetic Data Eval Frameworks & Benchmarks Natural Language Processing

Apr 9, 2026

An Empirical Study on Influence-Based Pretraining Data Selection for Code Large Language Models

Turns out, what makes for good code pre-training data depends heavily on the downstream task you're targeting.

Chengli Xing, Chen Xing, Z. Zeng +5

Code Generation & Program Synthesis Data Curation & Synthetic Data Training Efficiency & Optimization

Apr 9, 2026·also Tsinghua AI, PKU

GALA: Multimodal Graph Alignment for Bug Localization in Automated Program Repair

LLMs can now leverage visual structure, not just text, to pinpoint bugs in multimodal programs, thanks to a novel graph alignment approach that bridges the gap between GUI screenshots and code.

Zhuoyao Liu, Zhengran Zeng, Z. Zeng +3

Code Generation & Program Synthesis Computer Vision Multimodal Models

Feb 26, 2026

Hongrui Jia +5Feb 26, 2026·also SDU

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Forget static datasets: this iterative training loop uses diagnostic feedback to continuously patch the blind spots in large multimodal models, leading to consistent performance gains.

Hongrui Jia, Hongrui Jia, Chaoya Jiang +3

Multimodal Models RLHF & Preference Learning Training Efficiency & Optimization

Search

Shikun Zhang

Research focus

Frequent co-authors

Papers (7)