Lattice AI Research

Research focus

Reasoning & Chain-of-Thought (1)RLHF & Preference Learning (1)Training Efficiency & Optimization (1)Constitutional AI & AI Ethics (1)Red-Teaming & Adversarial Robustness (1)

Frequent co-authors

Yansheng Wang (1)Wenqi Huang (1)Chao Yang (1)

Papers (2)

Feb 24, 2026

Xu Wan +2Feb 24, 2026·also Datacurve

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

Off-policy reinforcement learning can boost LLM reasoning by 12.5% and solve 40% more problems compared to on-policy methods, simply by re-evaluating and reusing historically difficult samples.

Xu Wan, Yansheng Wang, Wenqi Huang

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Feb 24, 2026·also HIT

Fuz-RL: A Fuzzy-Guided Robust Framework for Safe Reinforcement Learning under Uncertainty

Ditch the min-max: Fuz-RL offers a fuzzy-measure guided approach to safe RL that achieves distributional robustness without complex optimization.

Xu Wan, Chao Yang

Constitutional AI & AI Ethics Red-Teaming & Adversarial Robustness Robotics & Embodied AI

Search

Xu Wan

Research focus

Frequent co-authors

Papers (2)