W. Gross

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Architecture Design (Transformers, SSMs, MoE) (1)Distributed Systems & Hardware (1)Inference & Quantization (1)

Frequent co-authors

Sayed Mohammadreza Tayaranian Hosseini (1)Sayed Mohammadreza Tayaranian Hosseini (1)Amir Ardakani (1)Amir Ardakani (1)

Papers (1)

Feb 26, 2026

Sayed Mohammadreza Tayaranian Hosseini +52w ago

InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models

By quantizing KV caches along their inner dimension, InnerQ achieves up to 22% speedup in LLM decoding compared to prior art, without sacrificing accuracy.

Sayed Mohammadreza Tayaranian Hosseini, Sayed Mohammadreza Tayaranian Hosseini, Amir Ardakani +3

Architecture Design (Transformers, SSMs, MoE)Distributed Systems & Hardware Inference & Quantization

Search

W. Gross

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (1)