Huiming Wang

Papers on Lattice

Total citations

Topics

Publication activitypapers/week, last 8 weeks

Research focus

Reasoning & Chain-of-Thought (3)RLHF & Preference Learning (3)Training Efficiency & Optimization (3)Eval Frameworks & Benchmarks (2)

Frequent co-authors

Boyu Zhu (3)Xizhong Yang (3)Mofei Song (3)Xinyu Zhou (1)

Papers (7)

Jun 9, 2026

MARS Lab2d ago·also Tsinghua AI, HKUST, Mistral, Received 10 September 2025; revised 3

Attention Amnesia in Hybrid LLMs: When CoT Fine-Tuning Breaks Long-Range Recall, and How to Fix It

CoT fine-tuning can slash long-range recall by over 57% in hybrid LLMs, but a simple parameter restoration method can reverse this trend without additional training.

Xinyu Zhou, Boyu Zhu, Yi Xu +4

Reasoning & Chain-of-Thought Recommendation & Information Retrieval

Apr 14, 2026

CodeSpecBench: Benchmarking LLMs for Executable Behavioral Specification Generation

LLMs that ace code generation often fail to grasp intended program semantics, as evidenced by a stark performance decline when generating executable behavioral specifications on the new CodeSpecBench benchmark.

Zaoyu Chen, Jianbo Dai, Boyu Zhu +6

Code Generation & Program Synthesis Eval Frameworks & Benchmarks

Mar 19, 2026

Yinan Xia +3Mar 19, 2026

Balancing the Reasoning Load: Difficulty-Differentiated Policy Optimization with Length Redistribution for Efficient and Robust Reinforcement Learning

LRMs can be made more efficient and accurate by strategically adjusting their output length based on task difficulty, leading to a better accuracy-length trade-off.

Yinan Xia, Haotian Zhang, Huimin Wang +1

Reasoning & Chain-of-Thought RLHF & Preference Learning Training Efficiency & Optimization

Mar 17, 2026

Xizhong Yang +2Mar 17, 2026

From the Inside Out: Progressive Distribution Refinement for Confidence Calibration

By progressively refining the reward signal based on the distribution of model confidence, DistriTTRL achieves significant performance gains in RL by better aligning internal information between training and test time and mitigating reward hacking.

Xizhong Yang, Huiming Wang, Mofei Song

RLHF & Preference Learning Training Efficiency & Optimization

Mar 4, 2026

Xizhong Yang +2Mar 4, 2026

Believe Your Model: Distribution-Guided Confidence Calibration

By modeling the distribution of confidence scores, DistriVoting significantly boosts the accuracy of large reasoning models, outperforming existing confidence-based selection methods across diverse benchmarks.

Xizhong Yang, Huiming Wang, Mofei Song

Eval Frameworks & Benchmarks Natural Language Processing Reasoning & Chain-of-Thought

Xizhong Yang +2Mar 4, 2026

Semantic Bridging Domains: Pseudo-Source as Test-Time Connector

Instead of directly aligning to a flawed pseudo-source domain in test-time adaptation, a semantic bridge approach significantly boosts performance by first rectifying the pseudo-source using universal semantics.

Xizhong Yang, Huiming Wang, Mofei Song

Data Curation & Synthetic Data Natural Language Processing

Mar 2, 2026

OpenAIMar 2, 2026

Efficient RLVR Training via Weighted Mutual Information Data Selection

Forget difficulty-based heuristics: InSight leverages weighted mutual information to select RL training data, boosting LLM reasoning and alignment with up to 2.2x speedup.

Xinyu Zhou, Boyu Zhu, Huiming Wang

Data Curation & Synthetic Data RLHF & Preference Learning Training Efficiency & Optimization

Search

Huiming Wang

Publication activitypapers/week, last 8 weeks

Research focus

Frequent co-authors

Papers (7)