Siheng Chen

MIRA achieves superior mid-training data selection by dynamically constructing source-specific evaluation rubrics, outperforming traditional methods while using half the data.

Haowen Wang, Yaxin Du, Jian Yang +8

Data Curation & Synthetic Data Scalable Oversight & Alignment Theory Training Efficiency & Optimization

May 6, 2026

May 6, 2026·also Equal Core Contributions

LongSeeker: Elastic Context Orchestration for Long-Horizon Search Agents

Forget dumb context stuffing: LongSeeker shows that strategically *editing* its own memory lets agents solve web search tasks with far greater reliability.

Yijun Lu, Rui Ye, Yuwen Du +2

Reasoning & Chain-of-Thought Recommendation & Information Retrieval Tool Use & Agents

May 5, 2026

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Forget resource-intensive pipelines: a purely academic team achieves SOTA search agent performance with just 10.6k SFT data points, outperforming models trained with CPT+SFT+RL.

Yuwen Du, Rui Ye, Shuo Tang +4

Eval Frameworks & Benchmarks Open-Source Models & Weights Tool Use & Agents

Apr 19, 2026

Apr 19, 2026·also DP Technology, SciLand

EvoMaster: A Foundational Agent Framework for Building Evolving Autonomous Scientific Agents at Scale

EvoMaster achieves unprecedented performance in autonomous scientific discovery, outperforming traditional frameworks by up to 316%.

Zexi Liu, Fengyang Li, Wenkai Jin +13

Scientific Discovery & Drug Design Tool Use & Agents

Apr 16, 2026

Tingjia Miao +16Apr 16, 2026·also CAS, Hangzhou Medical College, School of Artificial Intelligence, SciLand +2

PRL-Bench: A Comprehensive Benchmark Evaluating LLMs'Capabilities in Frontier Physics Research

LLMs are still far from being autonomous scientists, failing to master even simplified, end-to-end physics research workflows.

Tingjia Miao, Wenkai Jin, Jinxin Tan +14

Eval Frameworks & Benchmarks Reasoning & Chain-of-Thought Scientific Discovery & Drug Design

Apr 3, 2026

Apr 3, 2026·also IQuest Research, Shenzhen Intelligent Strong Technology Co.

InCoder-32B-Thinking: Industrial Code World Model for Thinking

Industrial code generation gets a reasoning boost: InCoder-32B-Thinking leverages error-driven feedback and a code world model to achieve top-tier performance on complex hardware-aware tasks.

Jian Yang, Wei Zhang, Jiajun Wu +26

Code Generation & Program Synthesis Reasoning & Chain-of-Thought World Models & Planning