HKUSTFeb 16, 2026arXiv:2602.14857

World Models for Policy Refinement in StarCraft II

Yixin Zhang, Ziyi Wang, Ziyi Wang, Yiming Rong, Yiming Rong, Haoxi Wang, Haoxi Wang, Haoxi Wang, Jinling Jiang, Jinling Jiang, Jinling Jiang, Shuang Xu, Shuang Xu, Haoran Wu, Shiyu Zhou, Shiyu Zhou, Bo Xu

AI Summary

This paper introduces StarWM, the first world model for StarCraft II (SC2) designed to predict future observations under partial observability by learning action-conditioned transitions. To enable learning SC2's complex dynamics, the authors created a structured textual representation that factorizes observations into five semantic modules and constructed SC2-Dynamics-50k, an instruction-tuning dataset for SC2 dynamics prediction. Integrating StarWM into a Generate--Simulate--Refine decision loop (StarWM-Agent) led to significant win-rate improvements against SC2's built-in AI, demonstrating the effectiveness of world-model-augmented decision-making for policy refinement in complex environments.

Key Contribution

Achieve up to 30% win-rate gains in StarCraft II by giving an LLM agent a world model to simulate the consequences of its actions.

Abstract

Large Language Models (LLMs) have recently shown strong reasoning and generalization capabilities, motivating their use as decision-making policies in complex environments. StarCraft II (SC2), with its massive state-action space and partial observability, is a challenging testbed. However, existing LLM-based SC2 agents primarily focus on improving the policy itself and overlook integrating a learnable, action-conditioned transition model into the decision loop. To bridge this gap, we propose StarWM, the first world model for SC2 that predicts future observations under partial observability. To facilitate learning SC2's hybrid dynamics, we introduce a structured textual representation that factorizes observations into five semantic modules, and construct SC2-Dynamics-50k, the first instruction-tuning dataset for SC2 dynamics prediction. We further develop a multi-dimensional offline evaluation framework for predicted structured observations. Offline results show StarWM's substantial gains over zero-shot baselines, including nearly 60% improvements in resource prediction accuracy and self-side macro-situation consistency. Finally, we propose StarWM-Agent, a world-model-augmented decision system that integrates StarWM into a Generate--Simulate--Refine decision loop for foresight-driven policy refinement. Online evaluation against SC2's built-in AI demonstrates consistent improvements, yielding win-rate gains of 30%, 15%, and 30% against Hard (LV5), Harder (LV6), and VeryHard (LV7), respectively, alongside improved macro-management stability and tactical risk assessment.

Reasoning & Chain-of-Thought Tool Use & Agents World Models & Planning

Citation Metrics

Citations0

Influential citations0

References28

Year2026

VenueN/A

Related Papers

Finding related papers...

Search

World Models for Policy Refinement in StarCraft II

Related Papers