Yi Zhang

UC Santa Cruz

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Natural Language Processing (6)Recommendation & Information Retrieval (5)Architecture Design (Transformers, SSMs, MoE) (5)Training Efficiency & Optimization (5)

Frequent co-authors

Divya Bhargavi (2)Etsuko Ishii (2)Monica Sunkara (2)Jingwei Zhuo (2)

Papers (13)

Apr 29, 2026

UC Santa Cruz2d ago·also Anhui University, UESTC, UQ

ProMax: Exploring the Potential of LLM-derived Profiles with Distribution Shaping for Recommender Systems

LLM-derived user profiles can be powerfully leveraged for recommendation via a surprisingly simple distribution shaping approach, outperforming more complex fusion methods.

Yi Zhang, Yiwen Zhang, Kai Zheng +2

Natural Language Processing Recommendation & Information Retrieval

D sequence? Across the small2d ago·also BAIR, Mila, ×4, UC Santa Cruz +1

When 2D Tasks Meet 1D Serialization: On Serialization Friction in Structured Tasks

LLMs struggle with structured 2D tasks when inputs are serialized into 1D, revealing a surprising performance gap compared to vision-augmented models that directly process the 2D layout.

Chung-Hsiang Lo, Lu Li, Diji Yang +4

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Reasoning & Chain-of-Thought

Apr 28, 2026

Dewei Bai +53d ago·also UC Santa Cruz

Vision SmolMamba: Spike-Guided Token Pruning for Energy-Efficient Spiking State-Space Vision Models

By intelligently pruning tokens based on spike timing and activation, Vision SmolMamba achieves state-of-the-art efficiency in spiking neural networks, outperforming even Spiking Mamba.

Dewei Bai, Hongxiang Peng, Yunyun Zeng +3

Architecture Design (Transformers, SSMs, MoE)Computer Vision Inference & Quantization

Apr 27, 2026

4d ago·also UC Santa Cruz, UQ

Disagreement as Signals: Dual-view Calibration for Sequential Recommendation Denoising

LLMs can denoise sequential recommendations by disagreeing with the recommendation model itself, leading to more robust performance against noisy user data.

Sijian Li, Min Gao, Zongwei Wang +3

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval

Chen Feng +194d ago·also Nankai University, UC Santa Cruz

FreeScale: Distributed Training for Sequence Recommendation Models with Minimal Scaling Cost

Sequence recommendation models can achieve near-perfect scaling efficiency in distributed training, slashing wasted GPU cycles by up to 90%.

Chen Feng, Haoli Zhang, Sh. B. Ali-zade +17

Distributed Systems & Hardware Recommendation & Information Retrieval Training Efficiency & Optimization

Apr 22, 2026

1w ago·also AWS Agentic AI Labs, UC Santa Cruz

Supplement Generation Training for Enhancing Agentic Task Performance

Forget fine-tuning behemoth LLMs for every new task – this paper shows how a tiny, nimble model generating smart supplements can unlock surprisingly strong agentic performance from frozen giants.

Young Min Cho, Daniele Bonadiman, Divya Bhargavi +8

Tool Use & Agents Training Efficiency & Optimization

Apr 21, 2026

1w ago·also AWS Agentic AI Labs, UC Santa Cruz

Explicit Trait Inference for Multi-Agent Coordination

LLM agents can reliably infer each other's "warmth" and "competence" from interaction histories, leading to significantly better coordination in complex multi-agent settings.

Suhaib Abdurahman, Etsuko Ishii, Katerina Margatina +3

Natural Language Processing Reasoning & Chain-of-Thought Tool Use & Agents

Apr 20, 2026

1w ago·also UC Santa Cruz

NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR

LLM-based ASR can be shrunk to 2.3B parameters and still beat larger models in real-world scenarios by carefully delineating encoder and LLM roles and using a multi-stage training approach.

Yuan Xie, Jiaqi Song, Guang Qiu +10

Inference & Quantization Natural Language Processing Scaling Laws & Emergent Abilities+1

Shenzhen University1w ago·also UC Santa Cruz

TLoRA: Task-aware Low Rank Adaptation of Large Language Models

TLoRA achieves superior performance across multiple tasks while cutting down trainable parameters, redefining efficiency in fine-tuning large language models.

Weicheng Lin, Yi Zhang, Jiawei Dang +1

Architecture Design (Transformers, SSMs, MoE)Natural Language Processing Training Efficiency & Optimization

Apr 12, 2026

2w ago·also UC Santa Cruz, unaffiliated

SID-Coord: Coordinating Semantic IDs for ID-based Ranking in Short-Video Search

Dramatically improve short-video search for niche content by unifying memorization and generalization with a lightweight semantic ID framework that boosts long-play rates by +0.664%.

Guowen Li, Yuepeng Zhang, Shunyu Zhang +3

Architecture Design (Transformers, SSMs, MoE)Recommendation & Information Retrieval Training Efficiency & Optimization

Apr 8, 2026

3w ago·also UC Santa Cruz, unaffiliated

Dual-Rerank: Fusing Causality and Utility for Industrial Generative Reranking

Kuaishou's new Dual-Rerank system slashes latency and boosts user engagement by fusing the best of autoregressive and non-autoregressive generative reranking, proving you can have your cake and eat it too in billion-scale search.

Shuai Lin, ChengLei Dai, Ye Qian +3

Natural Language Processing Recommendation & Information Retrieval

Apr 6, 2026

Yunkai Zhang +73w ago·also UC Santa Cruz

Grid2Matrix: Revealing Digital Agnosia in Vision-Language Models

VLMs suffer from "digital agnosia," exhibiting a surprisingly sharp failure to transcribe even small color grids into matrices, revealing a critical gap between visual feature encoding and language generation.

Yunkai Zhang, Linda Li, Yin Cui +5

Computer Vision Eval Frameworks & Benchmarks Multimodal Models

Apr 3, 2026

Xingtong Ge +6Apr 3, 2026·also UC Santa Cruz

Salt: Self-Consistent Distribution Matching with Cache-Aware Training for Fast Video Generation

Real-time video generation gets a boost: Salt achieves sharper, more dynamic videos at extremely low inference budgets by explicitly enforcing consistency across denoising steps.

Xingtong Ge, Yi Zhang, Yushi Huang +4

Computer Vision Inference & Quantization Training Efficiency & Optimization