Yafu Li

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

Eval Frameworks & Benchmarks (3)Tool Use & Agents (2)Reasoning & Chain-of-Thought (2)Natural Language Processing (1)

Frequent co-authors

Zhilin Wang (3)Runzhe Zhan (2)Tong Zhu (2)Yu Cheng (2)

Papers (5)

Jul 2, 2026

Tsinghua AI3w ago·also UMacau, UT Austin

EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

GPT-5.5 not only tops the leaderboard in policy evolution but also reveals critical insights into how agents can optimize performance through strategic feedback utilization.

Zhilin Wang, Hanxiao Song, Han Song +15

Eval Frameworks & Benchmarks Tool Use & Agents

Jun 9, 2026

Jun 9, 2026·also Tsinghua AI, AI Laboratory, CUHK, HKU +3

ComBench: A Benchmark for Rigorous Proof Reasoning and Constructive Realization in Olympiad-Level Combinatorics

Even the best LLMs struggle with Olympiad-level combinatorics, achieving only 65.4% on a benchmark designed to expose their reasoning limitations.

Shunkai Zhang, Yun Luo, Qianjia Cheng +14

Eval Frameworks & Benchmarks Reasoning & Chain-of-Thought

May 14, 2026

Haoran Zhang +13May 14, 2026·also PKU

$\pi$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

Current personal assistant agents struggle to anticipate and act on unstated user needs in long, complex workflows, revealing a critical gap between task completion and genuine proactivity.

Haoran Zhang, Luxin Xu, Zhilin Wang +11

Eval Frameworks & Benchmarks Natural Language Processing Tool Use & Agents

May 1, 2026

Siyuan Huang +8May 1, 2026·also WHU

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

LVLMs can maintain sharper visual focus during long-form generation by adding a lightweight, learnable memory module that bypasses attention dilution.

Siyuan Huang, Xiaoye Qu, Yafu Li +6

Architecture Design (Transformers, SSMs, MoE)Computer Vision Multimodal Models

Apr 8, 2026

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Reasoning SFT doesn't just memorize, it generalizes—but only if you train it long enough, feed it good data, and use a capable model, and even then, reasoning gains come at the cost of safety.

Qihan Ren, Peng Wang, Rui Cai +9

Data Curation & Synthetic Data Reasoning & Chain-of-Thought Training Efficiency & Optimization

Search

Yafu Li

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (5)