Lingzhe Zhang

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Training Efficiency & Optimization (2)Distributed Systems & Hardware (2)Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)

Frequent co-authors

Zhaoyang Liu (2)Leyi Pan (1)Shuchang Tao (1)Yunpeng Zhai (1)

Papers (3)

Jun 10, 2026

Tsinghua AI5d ago·also DAMO, HKUST, PKU

RLCSD: Reinforcement Learning with Contrastive On-Policy Self-Distillation

Privilege-induced style drift can undermine reasoning model performance, but RLCSD effectively redirects the learning signal to focus on what truly matters—task-relevant tokens.

Leyi Pan, Shuchang Tao, Yunpeng Zhai +5

Reasoning & Chain-of-Thought Training Efficiency & Optimization

May 6, 2026

Lingzhe Zhang +7May 6, 2026·also PKU

Towards Robust LLM Post-Training: Automatic Failure Management for Reinforcement Fine-Tuning

RFT's Achilles heel? This benchmark reveals how fragile reinforcement fine-tuning is, and introduces an automated system to catch and fix training failures before they tank your LLM.

Lingzhe Zhang, Tong Jia, Yunpeng Zhai +5

Distributed Systems & Hardware RLHF & Preference Learning Training Efficiency & Optimization

Apr 13, 2026

DAMOApr 13, 2026·also Microsoft Research, HKUST, PKU

E2E-REME: Towards End-to-End Microservices Auto-Remediation via Experience-Simulation Reinforcement Fine-Tuning

Forget prompt engineering: E2E-REME directly generates executable Ansible playbooks from diagnosis reports, outperforming large LLMs in microservice auto-remediation accuracy and efficiency.

Lingzhe Zhang, Minghua He, Zhaoyang Liu

Code Generation & Program Synthesis Distributed Systems & Hardware Tool Use & Agents

Search

Lingzhe Zhang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (3)