Zhiyi Hong

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Inference & Quantization (1)Training Efficiency & Optimization (1)

Frequent co-authors

Quantong Qiu (1)Yi Yang (1)Haitian Wang (1)Kebin Liu (1)

Papers (1)

Apr 8, 2026

Quantong Qiu +71w ago

Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

Forget static attention allocation – Flux Attention dynamically routes layers between full and sparse attention based on context, delivering significant speedups without sacrificing performance in long-context LLMs.

Quantong Qiu, Zhiyi Hong, Yi Yang +5

Architecture Design (Transformers, SSMs, MoE)Inference & Quantization Training Efficiency & Optimization

Search

Zhiyi Hong

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)