Zhengyu Niu

Papers on Lattice

Total citations

Topics

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)

Frequent co-authors

Mufan Xu (1)Xuefeng Bai (1)Muyun Yang (1)

Papers (1)

Feb 16, 2026

Beyond Token-Level Policy Gradients for Complex Reasoning with Large Language Models

Token-level policy gradients fall short in complex reasoning tasks, but treating sequences of tokens as unified actions can significantly boost performance in mathematical and coding benchmarks.

Mufan Xu, Xuefeng Bai, Zhengyu Niu +1

Reasoning & Chain-of-Thought RLHF & Preference Learning

Search

Zhengyu Niu

Research focus

Frequent co-authors

Papers (1)