Zixian Huang

Fine-tuning smaller reasoning models on data from larger models can backfire spectacularly unless you carefully match the stylistic nuances of the student.

Zixian Huang, Kaichen Yang, Xu Huang +4

Data Curation & Synthetic Data Open-Source Models & Weights Reasoning & Chain-of-Thought

Feb 25, 2026

Feb 25, 2026·also DUT, HKU, Shanghai AI Lab

ExpLang: Improved Exploration and Exploitation in LLM Reasoning with On-Policy Thinking Language Selection

Multilingual reasoning in LLMs isn't just about translation—it's a powerful knob for improving RL training by expanding the exploration space and boosting exploitation.

Changjiang Gao, Zixian Huang, Kaichen Yang +5

Natural Language Processing Reasoning & Chain-of-Thought RLHF & Preference Learning

Search

Zixian Huang

Research focus

Frequent co-authors

Papers (3)