Binghai Wang

Papers on Lattice

Total citations

Topics

h-index

Publication activitypapers/week, last 8 weeks

Research focus

RLHF & Preference Learning (2)Multimodal Models (2)Scalable Oversight & Alignment Theory (1)Training Efficiency & Optimization (1)

Frequent co-authors

Shichun Liu (2)Jiahang Lin (2)Zhenhua Han (2)Xuanjing Huang (2)

Papers (4)

Jun 24, 2026

Binghai Wang +112w ago·also ZJU

The Verification Horizon: No Silver Bullet for Coding Agent Rewards

Verification of coding agent outputs is now the bottleneck, not generation, and targeted design can significantly enhance performance while curbing reward hacking.

Binghai Wang, Chenlong Zhang, Dayiheng Liu +9

RLHF & Preference Learning Scalable Oversight & Alignment Theory

Apr 21, 2026

Apr 21, 2026·also Corresponding author, Fudan, Shanghai AI Lab, Shanghai Qiji Zhifeng Co

EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training

Learned critics in RLHF can actually *increase* variance and hurt performance in sparse-reward settings, but a simple explained variance metric can tell you when to ditch the critic and get better results.

Chengjun Pan, Shichun Liu, Jiahang Lin +7

RLHF & Preference Learning Training Efficiency & Optimization

Apr 15, 2026

Jiahang Lin +13Apr 15, 2026·also Fudan

MM-Doc-R1: Training Agents for Long Document Visual Question Answering through Multi-turn Reinforcement Learning

Multi-turn reinforcement learning gets a boost: weighting trajectories by semantic similarity dramatically improves baseline estimation and agent performance in long-document visual QA.

Jiahang Lin, Kai Hu, Binghai Wang +11

Multimodal Models Recommendation & Information Retrieval Tool Use & Agents

Mar 17, 2026

Tsinghua AIMar 17, 2026·also DAMO

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Multi-hop data synthesis using HopChain boosts VLM performance across a wide range of tasks, with gains of over 50 points in accuracy for ultra-long-context reasoning.

Shenzhi Wang, Shixuan Liu, Chang Gao +5

Data Curation & Synthetic Data Multimodal Models Reasoning & Chain-of-Thought

Search

Binghai Wang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (4)