Ming-Ming Cheng

Nankai University

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Computer Vision (4)Multimodal Models (3)Inference & Quantization (2)Reasoning & Chain-of-Thought (1)

Frequent co-authors

Chunle Guo (2)Qibin Hou (2)Xifeng Xue (1)Xiaokang Wang (1)

Papers (6)

Jun 15, 2026

Nankai UniversityJun 15, 2026·also NJU

DCP-Prune: Ultra-Low Token Pruning with Distribution Consistency Preservation

Ultra-low token pruning can achieve 92.1% of peak performance with only 16 visual tokens, thanks to a novel approach that preserves distribution consistency.

Xifeng Xue, Xiaokang Wang, Ming-Ming Cheng +1

Inference & Quantization Multimodal Models

Jun 8, 2026

DAMOJun 8, 2026·also Nankai University, QFNU, Z-Image Team

Beyond Scalar Rewards by Internalizing Reasoning into Score Distributions

Z-Reward achieves 41.3% better human preference alignment in text-to-image generation by transforming complex reasoning into efficient score distributions.

Huanqia Cai, Zhen Li, Zechao Zhan +5

Reasoning & Chain-of-Thought RLHF & Preference Learning

Jun 4, 2026

Jun 4, 2026·also Nankai University

Direct 3D-Aware Object Insertion via Decomposed Visual Proxies

Achieving pose-controllable object insertion with high visual fidelity, DIRECT redefines the boundaries of 2D image synthesis by integrating 3D manipulation.

Jingbo Gong, Yikai Wang, Yushi Lan +5

Computer Vision Multimodal Models

May 26, 2026

May 26, 2026·also Nankai University

RoadGIE: Towards A Global-Scale Aerial Benchmark for Generalizable Interactive Road Extraction

RoadGIE's connectivity-aware prompts and expert-guided interaction paradigm leapfrog traditional point-and-box prompting, enabling more accurate and topologically consistent road extraction from aerial imagery.

Chenxu Peng, Yimian Dai, Yongxiang Liu +1

Computer Vision Data Curation & Synthetic Data Eval Frameworks & Benchmarks

Apr 30, 2026

Apr 30, 2026·also Nankai University

YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal

Achieve up to 2.5X faster video object removal by focusing DiT computations only on the essential tokens dictated by the mask.

Chenyang Wu, Lina Lei, Fan Li +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

Apr 28, 2026

Apr 28, 2026·also Guangdong Provincial Key Laboratory of Visual, GXU, Nankai University, NJUST +2

Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

Skip the bulky bidirectional teacher: this new method trains a fast, causal audio-video generator directly, slashing sampling steps while maintaining top-tier quality.

Yupeng Zhou, Yupeng Zhou, Lianghua Huang +15

Computer Vision Multimodal Models Speech & Audio

Search

Ming-Ming Cheng

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (6)