Feiyang Ren

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Distributed Systems & Hardware (1)Inference & Quantization (1)Multimodal Models (1)

Frequent co-authors

Xiaoling Gu (1)Ke Chen (1)Huan Li (1)

Papers (1)

Apr 7, 2026

2w ago

HybridKV: Hybrid KV Cache Compression for Efficient Multimodal Large Language Model Inference

MLLMs can achieve up to 7.9x KV cache compression and 1.52x faster decoding without sacrificing performance by intelligently compressing different attention heads with distinct strategies.

Feiyang Ren, Xiaoling Gu, Ke Chen +1

Distributed Systems & Hardware Inference & Quantization Multimodal Models

Search

Feiyang Ren

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)