Shiwan Zhao

Nankai University

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (2)Reasoning & Chain-of-Thought (1)Constitutional AI & AI Ethics (1)Natural Language Processing (1)

Frequent co-authors

Xuyang Zhao (2)Zichen Xu (2)Liting Zhang (1)Jianye Wang (1)

Papers (2)

Jun 4, 2026

Corresponding authorJun 4, 2026·also Nankai University

TARPO: Token-Wise Latent-Explicit Reasoning via Action-Routing Policy Optimization

TARPO outperforms traditional reasoning methods by seamlessly integrating discrete and continuous approaches, revolutionizing policy exploration in LLMs.

Liting Zhang, Shiwan Zhao, Xuyang Zhao +3

Reasoning & Chain-of-Thought RLHF & Preference Learning

Apr 9, 2026

Nankai UniversityApr 9, 2026·also XJTU

Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning

LLM post-training isn't just about objectives; it's about strategically intervening on model behavior through support expansion, policy reshaping, and behavioral consolidation.

Shiwan Zhao, Zhihu Wang, Xu Zhao +12

Constitutional AI & AI Ethics Natural Language Processing RLHF & Preference Learning+1

Search

Shiwan Zhao

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (2)